Зарегистрироваться
Восстановить пароль
FAQ по входу

Силен Д., Мейсман А., Али М. Основы Data Science и Big Data. Python и наука о данных

  • Файл формата pdf
  • размером 108,32 МБ
  • Добавлен пользователем
  • Описание отредактировано
Силен Д., Мейсман А., Али М. Основы Data Science и Big Data. Python и наука о данных
СПб.: Питер, 2017. — 336 с. — (Библиотека программиста). — ISBN: 9785496025171.
Data Science - это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных. Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.
Обработка и анализ данных - одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.
Предисловие.
Благодарности.
О книге.
Структура книги.
Для кого написана эта книга.
Условные обозначения и загружаемые файлы.
Об авторах.
От издательства.
Data science в мире больших данных.
Область применения data science и больших данных и их преимущества.
Грани данных.
Структурированные данные.
Неструктурированные данные.
Данные на естественном языке.
Машинные данные.
Графовые, или сетевые, данные.
Аудио, видео и графика.
Потоковые данные.
Процесс data science.
Назначение цели исследования.
Сбор данных.
Подготовка данных.
Исследование данных.
Моделирование данных или построение модели.
Отображение и автоматизация.
Экосистема больших данных и data science.
Распределенные файловые системы.
Инфраструктура распределенного программирования.
Инфраструктура интеграции данных.
Инфраструктуры машинного обучения.
Базы данных NoSQL.
Инструменты планирования.
Инструменты сравнительного анализа.
Развертывание системы.
Программирование служб.
Безопасность.
Вводный пример использования Hadoop.
Итоги.
Процесс data science.
Обзор процесса data science.
Не будьте рабом процесса.
Этап 1: Определение целей исследования и создание проектного задания.
Выделите время на то, чтобы разобраться в целях и контексте исследования.
Создайте проектное задание.
Этап 2: Сбор данных.
Начните с данных, хранимых в компании.
Не бойтесь покупок во внешних источниках.
Проверьте качество данных сейчас, чтобы предотвратить проблемы в будущем.
Этап 3: Очистка, интеграция и преобразование данных.
Очистка данных.
Исправляйте ошибки как можно раньше.
Комбинирование данных из разных источников.
Преобразование данных.
Этап 4: Исследовательский анализ данных.
Этап 5: Построение моделей.
Выбор модели и переменных.
Выполнение модели.
Диагностика и сравнение моделей.
Этап 6: Представление результатов и построение приложений на их основе.
Итоги.
Машинное обучение.
Что такое машинное обучение, и почему оно важно для вас?
Применение машинного обучения в data science.
Применение машинного обучения в процессе data science.
Инструменты Python, используемые в машинном обучении.
Процесс моделирования.
Создание новых показателей и выбор модели.
Тренировка модели.
Проверка адекватности модели.
Прогнозирование новых наблюдений.
Типы машинного обучения.
Контролируемое обучение.
Неконтролируемое обучение.
Частично контролируемое обучение.
Итоги.
Работа с большими данными на одном компьютере.
Проблемы при работе с большими объемами данных.
Общие методы обработки больших объемов данных.
Правильный выбор алгоритма.
Правильный выбор структуры данных.
Правильный выбор инструментов.
Общие рекомендации для программистов при работе с большими наборами данных.
Не повторяйте уже выполненную работу.
Используйте все возможности оборудования.
Экономьте вычислительные ресурсы.
Пример 1: Прогнозирование вредоносных URL-адресов.
Этап 1: Определение цели исследования.
Этап 2: Сбор данных URL.
Этап 4: Исследование данных.
Этап 5: Построение модели.
Пример 2: Построение рекомендательной системы внутри базы данных.
Необходимые инструменты и методы.
Этап 1: Вопрос исследования.
Этап 3: Подготовка данных.
Этап 5: Построение модели.
Этап 6: Отображение и автоматизация.
Итоги.
Первые шаги в области больших данных.
Распределение хранения и обработки данных в инфраструктурах.
Hadoop: инфраструктура для хранения и обработки больших объемов данных.
Spark: замена MapReduce с повышенной производительностью.
Учебный пример: Оценка риска при кредитовании.
Этап 1: Цель исследования.
Этап 2: Сбор данных.
Этап 3: Подготовка данных.
Этап 4: Исследование данных и Этап 6: построение отчета.
Итоги.
Присоединяйтесь к движению NoSQL.
Введение в NoSQL.
АСЮ: базовые принципы реляционных баз данных.
Теорема САР: проблема баз данных, распределенных по многим узлам.
Принципы BASE баз данных NoSQL.
Типы баз данных NoSQL.
Учебный пример: Диагностика болезней.
Этап 1: Назначение цели исследования.
Этапы 2 и 3: Сбор и подготовка данных.
Этап 4: Исследование данных.
Этап 3 (снова): Подготовка данных для профилирования болезни.
Этап 4 (повторно): Исследование данных.
для профилирования болезни.
Этап 6: Отображение и автоматизация.
Итоги.
Графовые базы данных.
Связанные данные и графовые базы данных.
Когда и почему используются графовые базы данных?
Neo4j: графовая база данных.
Cypher: язык запросов к графам.
Пример использования связанных данных: рекомендательная система.
Этап 1: Определение цели исследования.
Этап 2: Сбор данных.
Этап 3: Подготовка данных.
Этап 4: Исследование данных.
Этап 5: Моделирование данных.
Этап б: Отображение.
Итоги.
Глубокий анализ текста.
Глубокий анализ текста в реальном мире.
Методы глубокого анализа текста.
Набор слов.
Выделение основы и лемматизация.
Классификатор на базе дерева принятия решений.
Учебный пример: классификация сообщений Reddit.
NLTK.
Обзор процесса data science и этап 1: назначение цели исследования.
Этап 2: Сбор данных.
Этап 3: Подготовка данных.
Этап 4: Исследование данных.
Этап 3 (повторно): Подготовка данных (адаптированная).
Этап 5: Анализ данных.
Этап 6: Отображение и автоматизация.
Итоги.
Визуализация данных для конечного пользователя.
Способы визуализации данных.
Crossfilter, библиотека MapReduce для JavaScript.
Подготовка необходимых компонентов.
Использование Crossfilter для фильтрации набора данных.
Создание информационной панели с использованием dc.js.
Средства разработки.
Итоги.
Приложения.
Настройка Elasticsearch.
Установка в Linux.
Установка в Windows.
Установка Neo4j.
Установка в Linux.
Установка в Windows.
Установка сервера MySQL.
Установка в Windows.
Установка в Linux.
Установка Anaconda в виртуальной среде.
Установка в Linux.
Установка в Windows.
Настройка среды.
  • Чтобы скачать этот файл зарегистрируйтесь и/или войдите на сайт используя форму сверху.
  • Регистрация