Facebook Pixel
Searching...
Русский
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Data Science

Data Science

автор John D. Kelleher 2018 280 страниц
3.91
500+ оценки
Слушать

ключевых вывода

1. Data Science: Искусство извлечения действенных инсайтов из данных

Цель науки о данных — улучшить процесс принятия решений, основываясь на инсайтах, извлеченных из больших наборов данных.

Определение науки о данных. Наука о данных охватывает набор принципов, определений проблем, алгоритмов и процессов для извлечения неочевидных и полезных закономерностей из больших наборов данных. Она сочетает элементы из различных областей, включая машинное обучение, добычу данных и статистику, чтобы анализировать сложные данные и извлекать действенные инсайты.

Ключевые компоненты науки о данных:

  • Сбор и подготовка данных
  • Исследовательский анализ данных
  • Машинное обучение и статистическое моделирование
  • Визуализация данных и коммуникация результатов

Ценность науки о данных. Организации в различных отраслях используют науку о данных для получения конкурентных преимуществ, улучшения операционной эффективности и принятия более обоснованных решений. От прогнозирования поведения клиентов до оптимизации цепочек поставок, наука о данных трансформирует то, как бизнесы работают и конкурируют в современном мире.

2. Процесс CRISP-DM: Структура для проектов в области науки о данных

Жизненный цикл CRISP-DM состоит из шести этапов: понимание бизнеса, понимание данных, подготовка данных, моделирование, оценка и внедрение.

Понимание CRISP-DM. Кросс-отраслевая стандартная процедура для добычи данных (CRISP-DM) предоставляет структурированный подход к планированию и выполнению проектов в области науки о данных. Этот итеративный процесс гарантирует, что проекты остаются сосредоточенными на бизнес-целях, сохраняя при этом гибкость для адаптации к новым инсайтам.

Шесть этапов CRISP-DM:

  1. Понимание бизнеса: Определение целей и требований проекта
  2. Понимание данных: Сбор и исследование начальных данных
  3. Подготовка данных: Очистка, преобразование и форматирование данных
  4. Моделирование: Выбор и применение методов моделирования
  5. Оценка: Оценка производительности модели и соответствия бизнес-целям
  6. Внедрение: Реализация модели и интеграция результатов в бизнес-процессы

Важность итерации. Процесс CRISP-DM подчеркивает необходимость постоянного уточнения и адаптации на протяжении всего жизненного цикла проекта. Этот итеративный подход позволяет специалистам по данным учитывать новые инсайты, решать возникающие проблемы и гарантировать, что проект остается в соответствии с изменяющимися потребностями бизнеса.

3. Машинное обучение: Двигатель науки о данных

Машинное обучение включает использование различных продвинутых статистических и вычислительных методов для обработки данных с целью нахождения закономерностей.

Основы машинного обучения. Алгоритмы машинного обучения позволяют компьютерам учиться на данных без явного программирования. Эти алгоритмы могут выявлять закономерности, делать прогнозы и улучшать свою производительность с опытом.

Ключевые типы машинного обучения:

  • Обучение с учителем: Обучается на размеченных данных для прогнозирования
  • Обучение без учителя: Обнаруживает скрытые закономерности в неразмеченных данных
  • Обучение с подкреплением: Обучается через взаимодействие с окружающей средой

Популярные алгоритмы машинного обучения:

  • Линейная и логистическая регрессия
  • Деревья решений и случайные леса
  • Нейронные сети и глубокое обучение
  • Машины опорных векторов
  • Кластеризация методом K-средних

Машинное обучение составляет ядро многих приложений науки о данных, позволяя организациям автоматизировать сложные задачи, делать точные прогнозы и выявлять инсайты, которые было бы сложно или невозможно обнаружить вручную.

4. Кластеризация, обнаружение аномалий и правила ассоциации: Ключевые задачи науки о данных

Кластеризация включает сортировку экземпляров в наборе данных на подгруппы, содержащие похожие экземпляры.

Основные задачи науки о данных. Эти методы составляют основу многих приложений науки о данных, позволяя бизнесу извлекать ценные инсайты из своих данных.

Кластеризация:

  • Группирует похожие точки данных вместе
  • Применения: Сегментация клиентов, сжатие изображений
  • Общий алгоритм: Кластеризация методом K-средних

Обнаружение аномалий:

  • Идентифицирует необычные закономерности или выбросы в данных
  • Применения: Обнаружение мошенничества, мониторинг состояния систем
  • Методы: Статистические методы, алгоритмы машинного обучения

Добыча правил ассоциации:

  • Обнаруживает взаимосвязи между переменными в больших наборах данных
  • Применения: Анализ корзины покупок, рекомендательные системы
  • Популярный алгоритм: Алгоритм Apriori

Эти методы предоставляют мощные инструменты для выявления скрытых закономерностей, идентификации потенциальных проблем и принятия решений на основе данных в различных отраслях и приложениях.

5. Прогностические модели: Классификация и регрессия на практике

Прогнозирование — это задача оценки значения целевого атрибута для данного экземпляра на основе значений других атрибутов (или входных атрибутов) для этого экземпляра.

Понимание прогностических моделей. Прогностические модели являются важным приложением машинного обучения в науке о данных, позволяя организациям принимать обоснованные решения на основе исторических данных и текущих входных данных.

Два основных типа прогностических моделей:

  1. Классификация: Прогнозирует категориальные результаты (например, спам или не спам)
  2. Регрессия: Прогнозирует непрерывные числовые значения (например, цены на жилье)

Ключевые шаги в построении прогностических моделей:

  1. Сбор и подготовка данных
  2. Выбор и инженерия признаков
  3. Выбор и обучение модели
  4. Оценка и настройка модели
  5. Внедрение и мониторинг

Прогностические модели имеют широкое применение, от прогнозирования оттока клиентов в телекоммуникациях до прогнозирования цен на финансовых рынках. Успех этих моделей зависит от качества данных, правильного выбора признаков и тщательной оценки модели.

6. Экосистема науки о данных: От источников данных до аналитики

Базы данных являются естественной технологией для хранения и извлечения структурированных транзакционных или операционных данных (т.е. данных, генерируемых повседневной деятельностью компании).

Компоненты экосистемы науки о данных. Надежная инфраструктура науки о данных обычно включает различные компоненты, которые работают вместе для обеспечения эффективного хранения, обработки и анализа данных.

Ключевые элементы экосистемы:

  • Источники данных: Транзакционные базы данных, устройства IoT, социальные сети и т.д.
  • Хранилище данных: Реляционные базы данных, хранилища данных, озера данных
  • Технологии больших данных: Hadoop, Spark, NoSQL базы данных
  • Инструменты аналитики: SQL, R, Python, SAS, Tableau
  • Платформы машинного обучения: TensorFlow, scikit-learn, H2O.ai

Тенденции в экосистеме:

  • Облачные решения для масштабируемости и гибкости
  • Интеграция обработки в реальном времени и пакетной обработки
  • Акцент на управлении данными и безопасности
  • Принятие инструментов автоматизированного машинного обучения (AutoML)

Развивающаяся экосистема науки о данных позволяет организациям обрабатывать увеличивающиеся объемы и разнообразие данных, выполнять сложные анализы и извлекать действенные инсайты более эффективно, чем когда-либо прежде.

7. Этические соображения и конфиденциальность в эпоху больших данных

Очень сложно предсказать, как эти изменения будут развиваться в долгосрочной перспективе. В этой области существует множество заинтересованных сторон: рассмотрите различные повестки крупных интернет-компаний, рекламных и страховых компаний, разведывательных агентств, правоохранительных органов, правительств, медицинских и социальных научных исследований, а также групп по защите гражданских свобод.

Баланс между инновациями и конфиденциальностью. По мере роста возможностей науки о данных растут и опасения по поводу конфиденциальности, справедливости и этического использования данных. Организации должны ориентироваться в сложных этических соображениях, одновременно используя мощь науки о данных.

Ключевые этические соображения:

  • Конфиденциальность и защита данных
  • Алгоритмическая предвзятость и справедливость
  • Прозрачность и объяснимость моделей
  • Осознанное согласие на сбор и использование данных
  • Ответственное использование персональных данных

Регуляторный ландшафт:

  • Общий регламент по защите данных (GDPR) в ЕС
  • Закон о конфиденциальности потребителей Калифорнии (CCPA) в США
  • Отраслевые нормативы (например, HIPAA для здравоохранения)

Специалисты по данным и организации должны придавать приоритет этическим соображениям в своей работе, внедряя такие практики, как конфиденциальность по замыслу, аудит алгоритмов и прозрачные политики использования данных для построения доверия и обеспечения ответственной инновации.

8. Будущее науки о данных: Персонализированная медицина и умные города

Медицинские сенсоры, носимые или проглатываемые пациентом или имплантируемые, разрабатываются для непрерывного мониторинга жизненно важных показателей и поведения пациента, а также функционирования его или ее органов в течение дня.

Новые приложения науки о данных. По мере развития методов науки о данных и увеличения доступности данных появляются новые приложения, которые обещают трансформировать различные аспекты нашей жизни.

Персонализированная медицина:

  • Геномный анализ для индивидуализированных методов лечения
  • Непрерывный мониторинг здоровья с помощью носимых устройств
  • Диагностика и планирование лечения с помощью ИИ

Умные города:

  • Управление и оптимизация дорожного движения в реальном времени
  • Прогнозное обслуживание инфраструктуры
  • Повышение энергоэффективности и устойчивости
  • Улучшение общественной безопасности через прогнозное полицейское патрулирование

Эти приложения демонстрируют потенциал науки о данных для улучшения результатов в здравоохранении, повышения качества жизни в городах и решения сложных социальных проблем. Однако они также поднимают важные вопросы о конфиденциальности, владении данными и балансе между технологическим прогрессом и правами личности.

9. Принципы успешных проектов в области науки о данных

Успешные проекты в области науки о данных требуют фокуса, качественных данных, правильных людей, готовности экспериментировать с несколькими моделями, интеграции в архитектуру и процессы информационных технологий (ИТ) бизнеса, поддержки со стороны высшего руководства и признания организацией того, что, поскольку мир меняется, модели устаревают и их необходимо регулярно обновлять.

Ключевые факторы успеха. Успешные проекты в области науки о данных требуют сочетания технической экспертизы, деловой хватки и организационной поддержки.

Критические принципы успеха:

  1. Четкое определение проблемы и фокус проекта
  2. Высококачественные, релевантные данные
  3. Квалифицированная и разнообразная проектная команда
  4. Эксперименты с несколькими моделями и подходами
  5. Интеграция с существующими ИТ-системами и бизнес-процессами
  6. Сильная поддержка и спонсорство со стороны руководства
  7. Итеративный подход с регулярными обновлениями моделей

Распространенные ошибки, которых следует избегать:

  • Отсутствие четких бизнес-целей
  • Плохое качество данных или недостаток данных
  • Чрезмерная зависимость от одного алгоритма или подхода
  • Неспособность интегрировать результаты в бизнес-процессы
  • Пренебрежение этическими соображениями и вопросами конфиденциальности

Следуя этим принципам и избегая распространенных ошибок, организации могут максимизировать ценность своих инициатив в области науки о данных и добиться значимого влияния на бизнес.

Последнее обновление:

Отзывы

3.91 из 5
Средняя оценка на основе 500+ оценки с Goodreads и Amazon.

Наука о данных получает в основном положительные отзывы как доступное введение в эту область. Читатели ценят ясные объяснения ключевых концепций, алгоритмов и этических аспектов. Многие считают её полезной для начинающих или тех, кто ищет общее представление, хотя некоторые отмечают недостаток технической глубины. Похвалы удостаивается освещение реальных приложений и бизнес-аспектов. В то время как некоторые критикуют базовый характер содержания, другие ценят широкий взгляд на принципы, задачи и будущие тенденции науки о данных.

Об авторе

Джон Д. Келлехер — профессор компьютерных наук и академический лидер в Дублинском технологическом институте. Его специализация — машинное обучение и предсказательная аналитика данных. Келлехер является автором нескольких книг на эти темы, включая "Основы машинного обучения для предсказательной аналитики данных", изданной MIT Press. Его работа в Институте исследований информации, коммуникации и развлечений демонстрирует его стремление применять концепции компьютерных наук в практических и инновационных областях. Академический опыт и история публикаций Келлехера подтверждают его как авторитетного специалиста в быстро развивающейся области науки о данных и её приложениях.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Create a free account to unlock:
Bookmarks – save your favorite books
History – revisit books later
Ratings – rate books & see your ratings
Unlock unlimited listening
Your first week's on us!
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Nov 28,
cancel anytime before.
Compare Features Free Pro
Read full text summaries
Summaries are free to read for everyone
Listen to summaries
12,000+ hours of audio
Unlimited Bookmarks
Free users are limited to 10
Unlimited History
Free users are limited to 10
What our users say
30,000+ readers
“...I can 10x the number of books I can read...”
“...exceptionally accurate, engaging, and beautifully presented...”
“...better than any amazon review when I'm making a book-buying decision...”
Save 62%
Yearly
$119.88 $44.99/yr
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Settings
Appearance