Facebook Pixel
Searching...
Русский
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Data Science

Data Science

автор John D. Kelleher 2018 280 страниц
3.91
500+ оценки
Слушать
Listen to Summary

ключевых вывода

1. Data Science: Искусство извлечения действенных инсайтов из данных

Цель науки о данных — улучшить процесс принятия решений, основываясь на инсайтах, извлеченных из больших наборов данных.

Определение науки о данных. Наука о данных охватывает набор принципов, определений проблем, алгоритмов и процессов для извлечения неочевидных и полезных закономерностей из больших наборов данных. Она сочетает элементы из различных областей, включая машинное обучение, добычу данных и статистику, чтобы анализировать сложные данные и извлекать действенные инсайты.

Ключевые компоненты науки о данных:

  • Сбор и подготовка данных
  • Исследовательский анализ данных
  • Машинное обучение и статистическое моделирование
  • Визуализация данных и коммуникация результатов

Ценность науки о данных. Организации в различных отраслях используют науку о данных для получения конкурентных преимуществ, улучшения операционной эффективности и принятия более обоснованных решений. От прогнозирования поведения клиентов до оптимизации цепочек поставок, наука о данных трансформирует то, как бизнесы работают и конкурируют в современном мире.

2. Процесс CRISP-DM: Структура для проектов в области науки о данных

Жизненный цикл CRISP-DM состоит из шести этапов: понимание бизнеса, понимание данных, подготовка данных, моделирование, оценка и внедрение.

Понимание CRISP-DM. Кросс-отраслевая стандартная процедура для добычи данных (CRISP-DM) предоставляет структурированный подход к планированию и выполнению проектов в области науки о данных. Этот итеративный процесс гарантирует, что проекты остаются сосредоточенными на бизнес-целях, сохраняя при этом гибкость для адаптации к новым инсайтам.

Шесть этапов CRISP-DM:

  1. Понимание бизнеса: Определение целей и требований проекта
  2. Понимание данных: Сбор и исследование начальных данных
  3. Подготовка данных: Очистка, преобразование и форматирование данных
  4. Моделирование: Выбор и применение методов моделирования
  5. Оценка: Оценка производительности модели и соответствия бизнес-целям
  6. Внедрение: Реализация модели и интеграция результатов в бизнес-процессы

Важность итерации. Процесс CRISP-DM подчеркивает необходимость постоянного уточнения и адаптации на протяжении всего жизненного цикла проекта. Этот итеративный подход позволяет специалистам по данным учитывать новые инсайты, решать возникающие проблемы и гарантировать, что проект остается в соответствии с изменяющимися потребностями бизнеса.

3. Машинное обучение: Двигатель науки о данных

Машинное обучение включает использование различных продвинутых статистических и вычислительных методов для обработки данных с целью нахождения закономерностей.

Основы машинного обучения. Алгоритмы машинного обучения позволяют компьютерам учиться на данных без явного программирования. Эти алгоритмы могут выявлять закономерности, делать прогнозы и улучшать свою производительность с опытом.

Ключевые типы машинного обучения:

  • Обучение с учителем: Обучается на размеченных данных для прогнозирования
  • Обучение без учителя: Обнаруживает скрытые закономерности в неразмеченных данных
  • Обучение с подкреплением: Обучается через взаимодействие с окружающей средой

Популярные алгоритмы машинного обучения:

  • Линейная и логистическая регрессия
  • Деревья решений и случайные леса
  • Нейронные сети и глубокое обучение
  • Машины опорных векторов
  • Кластеризация методом K-средних

Машинное обучение составляет ядро многих приложений науки о данных, позволяя организациям автоматизировать сложные задачи, делать точные прогнозы и выявлять инсайты, которые было бы сложно или невозможно обнаружить вручную.

4. Кластеризация, обнаружение аномалий и правила ассоциации: Ключевые задачи науки о данных

Кластеризация включает сортировку экземпляров в наборе данных на подгруппы, содержащие похожие экземпляры.

Основные задачи науки о данных. Эти методы составляют основу многих приложений науки о данных, позволяя бизнесу извлекать ценные инсайты из своих данных.

Кластеризация:

  • Группирует похожие точки данных вместе
  • Применения: Сегментация клиентов, сжатие изображений
  • Общий алгоритм: Кластеризация методом K-средних

Обнаружение аномалий:

  • Идентифицирует необычные закономерности или выбросы в данных
  • Применения: Обнаружение мошенничества, мониторинг состояния систем
  • Методы: Статистические методы, алгоритмы машинного обучения

Добыча правил ассоциации:

  • Обнаруживает взаимосвязи между переменными в больших наборах данных
  • Применения: Анализ корзины покупок, рекомендательные системы
  • Популярный алгоритм: Алгоритм Apriori

Эти методы предоставляют мощные инструменты для выявления скрытых закономерностей, идентификации потенциальных проблем и принятия решений на основе данных в различных отраслях и приложениях.

5. Прогностические модели: Классификация и регрессия на практике

Прогнозирование — это задача оценки значения целевого атрибута для данного экземпляра на основе значений других атрибутов (или входных атрибутов) для этого экземпляра.

Понимание прогностических моделей. Прогностические модели являются важным приложением машинного обучения в науке о данных, позволяя организациям принимать обоснованные решения на основе исторических данных и текущих входных данных.

Два основных типа прогностических моделей:

  1. Классификация: Прогнозирует категориальные результаты (например, спам или не спам)
  2. Регрессия: Прогнозирует непрерывные числовые значения (например, цены на жилье)

Ключевые шаги в построении прогностических моделей:

  1. Сбор и подготовка данных
  2. Выбор и инженерия признаков
  3. Выбор и обучение модели
  4. Оценка и настройка модели
  5. Внедрение и мониторинг

Прогностические модели имеют широкое применение, от прогнозирования оттока клиентов в телекоммуникациях до прогнозирования цен на финансовых рынках. Успех этих моделей зависит от качества данных, правильного выбора признаков и тщательной оценки модели.

6. Экосистема науки о данных: От источников данных до аналитики

Базы данных являются естественной технологией для хранения и извлечения структурированных транзакционных или операционных данных (т.е. данных, генерируемых повседневной деятельностью компании).

Компоненты экосистемы науки о данных. Надежная инфраструктура науки о данных обычно включает различные компоненты, которые работают вместе для обеспечения эффективного хранения, обработки и анализа данных.

Ключевые элементы экосистемы:

  • Источники данных: Транзакционные базы данных, устройства IoT, социальные сети и т.д.
  • Хранилище данных: Реляционные базы данных, хранилища данных, озера данных
  • Технологии больших данных: Hadoop, Spark, NoSQL базы данных
  • Инструменты аналитики: SQL, R, Python, SAS, Tableau
  • Платформы машинного обучения: TensorFlow, scikit-learn, H2O.ai

Тенденции в экосистеме:

  • Облачные решения для масштабируемости и гибкости
  • Интеграция обработки в реальном времени и пакетной обработки
  • Акцент на управлении данными и безопасности
  • Принятие инструментов автоматизированного машинного обучения (AutoML)

Развивающаяся экосистема науки о данных позволяет организациям обрабатывать увеличивающиеся объемы и разнообразие данных, выполнять сложные анализы и извлекать действенные инсайты более эффективно, чем когда-либо прежде.

7. Этические соображения и конфиденциальность в эпоху больших данных

Очень сложно предсказать, как эти изменения будут развиваться в долгосрочной перспективе. В этой области существует множество заинтересованных сторон: рассмотрите различные повестки крупных интернет-компаний, рекламных и страховых компаний, разведывательных агентств, правоохранительных органов, правительств, медицинских и социальных научных исследований, а также групп по защите гражданских свобод.

Баланс между инновациями и конфиденциальностью. По мере роста возможностей науки о данных растут и опасения по поводу конфиденциальности, справедливости и этического использования данных. Организации должны ориентироваться в сложных этических соображениях, одновременно используя мощь науки о данных.

Ключевые этические соображения:

  • Конфиденциальность и защита данных
  • Алгоритмическая предвзятость и справедливость
  • Прозрачность и объяснимость моделей
  • Осознанное согласие на сбор и использование данных
  • Ответственное использование персональных данных

Регуляторный ландшафт:

  • Общий регламент по защите данных (GDPR) в ЕС
  • Закон о конфиденциальности потребителей Калифорнии (CCPA) в США
  • Отраслевые нормативы (например, HIPAA для здравоохранения)

Специалисты по данным и организации должны придавать приоритет этическим соображениям в своей работе, внедряя такие практики, как конфиденциальность по замыслу, аудит алгоритмов и прозрачные политики использования данных для построения доверия и обеспечения ответственной инновации.

8. Будущее науки о данных: Персонализированная медицина и умные города

Медицинские сенсоры, носимые или проглатываемые пациентом или имплантируемые, разрабатываются для непрерывного мониторинга жизненно важных показателей и поведения пациента, а также функционирования его или ее органов в течение дня.

Новые приложения науки о данных. По мере развития методов науки о данных и увеличения доступности данных появляются новые приложения, которые обещают трансформировать различные аспекты нашей жизни.

Персонализированная медицина:

  • Геномный анализ для индивидуализированных методов лечения
  • Непрерывный мониторинг здоровья с помощью носимых устройств
  • Диагностика и планирование лечения с помощью ИИ

Умные города:

  • Управление и оптимизация дорожного движения в реальном времени
  • Прогнозное обслуживание инфраструктуры
  • Повышение энергоэффективности и устойчивости
  • Улучшение общественной безопасности через прогнозное полицейское патрулирование

Эти приложения демонстрируют потенциал науки о данных для улучшения результатов в здравоохранении, повышения качества жизни в городах и решения сложных социальных проблем. Однако они также поднимают важные вопросы о конфиденциальности, владении данными и балансе между технологическим прогрессом и правами личности.

9. Принципы успешных проектов в области науки о данных

Успешные проекты в области науки о данных требуют фокуса, качественных данных, правильных людей, готовности экспериментировать с несколькими моделями, интеграции в архитектуру и процессы информационных технологий (ИТ) бизнеса, поддержки со стороны высшего руководства и признания организацией того, что, поскольку мир меняется, модели устаревают и их необходимо регулярно обновлять.

Ключевые факторы успеха. Успешные проекты в области науки о данных требуют сочетания технической экспертизы, деловой хватки и организационной поддержки.

Критические принципы успеха:

  1. Четкое определение проблемы и фокус проекта
  2. Высококачественные, релевантные данные
  3. Квалифицированная и разнообразная проектная команда
  4. Эксперименты с несколькими моделями и подходами
  5. Интеграция с существующими ИТ-системами и бизнес-процессами
  6. Сильная поддержка и спонсорство со стороны руководства
  7. Итеративный подход с регулярными обновлениями моделей

Распространенные ошибки, которых следует избегать:

  • Отсутствие четких бизнес-целей
  • Плохое качество данных или недостаток данных
  • Чрезмерная зависимость от одного алгоритма или подхода
  • Неспособность интегрировать результаты в бизнес-процессы
  • Пренебрежение этическими соображениями и вопросами конфиденциальности

Следуя этим принципам и избегая распространенных ошибок, организации могут максимизировать ценность своих инициатив в области науки о данных и добиться значимого влияния на бизнес.

Последнее обновление:

FAQ

What's "Data Science" by John D. Kelleher about?

  • Overview of Data Science: The book provides a comprehensive introduction to data science, covering its principles, problem definitions, algorithms, and processes for extracting patterns from large data sets.
  • Relation to Other Fields: It explains how data science is related to data mining and machine learning but is broader in scope, encompassing data ethics and regulation.
  • Practical Applications: The book discusses how data science is applied in various sectors, including business, government, and healthcare, to improve decision-making and efficiency.
  • Historical Context: It offers a brief history of data science, tracing its development from data collection and analysis to its current state driven by big data and technological advancements.

Why should I read "Data Science" by John D. Kelleher?

  • Comprehensive Introduction: The book is part of the MIT Press Essential Knowledge series, providing an accessible and concise overview of data science.
  • Expert Insights: Written by leading thinkers, it delivers expert overviews of data science, making complex ideas accessible to nonspecialists.
  • Practical Relevance: It highlights the impact of data science on modern societies, illustrating its applications in various fields like marketing, healthcare, and urban planning.
  • Ethical Considerations: The book addresses the ethical implications of data science, including privacy concerns and the potential for discrimination.

What are the key takeaways of "Data Science" by John D. Kelleher?

  • Data Science Definition: Data science involves principles and processes for extracting useful patterns from large data sets, improving decision-making.
  • CRISP-DM Process: The book outlines the Cross Industry Standard Process for Data Mining, a widely used framework for data science projects.
  • Machine Learning Role: Machine learning is central to data science, providing algorithms to create models from data for prediction and analysis.
  • Ethical Challenges: It emphasizes the importance of addressing ethical issues, such as privacy and discrimination, in data science applications.

How does "Data Science" by John D. Kelleher define data science?

  • Principles and Processes: Data science is defined as a set of principles, problem definitions, algorithms, and processes for extracting patterns from data.
  • Broader Scope: It is broader than data mining and machine learning, encompassing data ethics, regulation, and the handling of unstructured data.
  • Decision-Making Focus: The primary goal is to improve decision-making by basing decisions on insights extracted from large data sets.
  • Interdisciplinary Nature: Data science integrates knowledge from various fields, including statistics, computer science, and domain expertise.

What is the CRISP-DM process mentioned in "Data Science" by John D. Kelleher?

  • Standard Framework: CRISP-DM stands for Cross Industry Standard Process for Data Mining, a widely adopted framework for data science projects.
  • Six Stages: It consists of six stages: business understanding, data understanding, data preparation, modeling, evaluation, and deployment.
  • Iterative Process: The process is iterative, allowing data scientists to revisit previous stages based on new insights or challenges.
  • Focus on Business Needs: It emphasizes understanding business needs and ensuring that data science solutions align with organizational goals.

How does "Data Science" by John D. Kelleher explain machine learning's role in data science?

  • Core Component: Machine learning is a core component of data science, providing algorithms to extract patterns and create predictive models from data.
  • Supervised vs. Unsupervised: The book explains the difference between supervised learning (with labeled data) and unsupervised learning (without labeled data).
  • Model Evaluation: It discusses the importance of evaluating models to ensure they generalize well to new, unseen data.
  • Algorithm Selection: The book highlights the need to experiment with different algorithms to find the best fit for a given data set and problem.

What ethical challenges does "Data Science" by John D. Kelleher address?

  • Privacy Concerns: The book discusses the ethical implications of data science, particularly regarding individual privacy and data protection.
  • Discrimination Risks: It highlights the potential for data science to perpetuate and reinforce societal prejudices and discrimination.
  • Profiling Issues: The book examines how data science can be used for social profiling, leading to preferential treatment or marginalization.
  • Regulatory Frameworks: It reviews existing legal frameworks and guidelines for protecting privacy and preventing discrimination in data science.

What is the significance of big data in "Data Science" by John D. Kelleher?

  • Three Vs of Big Data: Big data is characterized by its volume, variety, and velocity, presenting both opportunities and challenges for data science.
  • Technological Advancements: The book discusses how advancements in data storage, processing power, and analytics have driven the growth of big data.
  • Impact on Society: Big data has transformed various sectors, enabling more informed decision-making and personalized services.
  • Ethical Considerations: The book emphasizes the need to address ethical concerns related to big data, such as privacy and data ownership.

How does "Data Science" by John D. Kelleher describe the role of data visualization?

  • Exploratory Tool: Data visualization is an important tool for exploring and understanding data, helping to identify patterns and trends.
  • Communication Aid: It aids in communicating the results of data analysis to stakeholders, making complex data more accessible and understandable.
  • Historical Context: The book traces the development of data visualization from early statistical graphics to modern techniques.
  • Effective Design: It emphasizes the principles of effective data visualization, such as clarity, accuracy, and relevance.

What are the best quotes from "Data Science" by John D. Kelleher and what do they mean?

  • "Data science is a partnership between a data scientist and a computer." This quote highlights the collaborative nature of data science, where human expertise and computational power work together to extract insights from data.
  • "The goal of data science is to improve decision making by basing decisions on insights extracted from large data sets." This emphasizes the primary objective of data science: to enhance decision-making processes through data-driven insights.
  • "Data are never an objective description of the world. They are instead always partial and biased." This quote underscores the importance of recognizing the limitations and biases inherent in data, which can affect analysis and conclusions.
  • "Without skilled human oversight, a data science project will fail to meet its targets." This highlights the critical role of human expertise in guiding data science projects to success.

How does "Data Science" by John D. Kelleher address the future trends in data science?

  • Smart Devices and IoT: The book discusses the proliferation of smart devices and the Internet of Things, which are driving the growth of big data.
  • Personalized Medicine: It highlights the potential of data science to revolutionize healthcare through personalized medicine and precision treatments.
  • Smart Cities: The book explores the development of smart cities, where data science is used to optimize urban planning and resource management.
  • Ongoing Challenges: It acknowledges the ongoing challenges in data science, including ethical considerations and the need for continuous model updates.

What practical advice does "Data Science" by John D. Kelleher offer for successful data science projects?

  • Clear Focus: The book emphasizes the importance of clearly defining the problem and goals of a data science project from the outset.
  • Quality Data: It stresses the need for high-quality data and the importance of data preparation and cleaning in the project lifecycle.
  • Team Collaboration: Successful projects often involve collaboration among a diverse team with complementary skills and expertise.
  • Iterative Process: The book advocates for an iterative approach, allowing for continuous improvement and adaptation of models and processes.

Отзывы

3.91 из 5
Средняя оценка на основе 500+ оценки с Goodreads и Amazon.

Наука о данных получает в основном положительные отзывы как доступное введение в эту область. Читатели ценят ясные объяснения ключевых концепций, алгоритмов и этических аспектов. Многие считают её полезной для начинающих или тех, кто ищет общее представление, хотя некоторые отмечают недостаток технической глубины. Похвалы удостаивается освещение реальных приложений и бизнес-аспектов. В то время как некоторые критикуют базовый характер содержания, другие ценят широкий взгляд на принципы, задачи и будущие тенденции науки о данных.

Об авторе

Джон Д. Келлехер — профессор компьютерных наук и академический лидер в Дублинском технологическом институте. Его специализация — машинное обучение и предсказательная аналитика данных. Келлехер является автором нескольких книг на эти темы, включая "Основы машинного обучения для предсказательной аналитики данных", изданной MIT Press. Его работа в Институте исследований информации, коммуникации и развлечений демонстрирует его стремление применять концепции компьютерных наук в практических и инновационных областях. Академический опыт и история публикаций Келлехера подтверждают его как авторитетного специалиста в быстро развивающейся области науки о данных и её приложениях.

Other books by John D. Kelleher

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Home
Library
Get App
Create a free account to unlock:
Requests: Request new book summaries
Bookmarks: Save your favorite books
History: Revisit books later
Recommendations: Get personalized suggestions
Ratings: Rate books & see your ratings
Try Full Access for 7 Days
Listen, bookmark, and more
Compare Features Free Pro
📖 Read Summaries
All summaries are free to read in 40 languages
🎧 Listen to Summaries
Listen to unlimited summaries in 40 languages
❤️ Unlimited Bookmarks
Free users are limited to 10
📜 Unlimited History
Free users are limited to 10
Risk-Free Timeline
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Apr 26,
cancel anytime before.
Consume 2.8x More Books
2.8x more books Listening Reading
Our users love us
100,000+ readers
"...I can 10x the number of books I can read..."
"...exceptionally accurate, engaging, and beautifully presented..."
"...better than any amazon review when I'm making a book-buying decision..."
Save 62%
Yearly
$119.88 $44.99/year
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Scanner
Find a barcode to scan

Settings
General
Widget
Appearance
Loading...
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →