Начать бесплатный период
Searching...
SoBrief
Русский
EnglishEnglish
EspañolSpanish
简体中文Chinese
繁體中文Chinese (Traditional)
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Data Science для бизнеса

Data Science для бизнеса

Что нужно знать о Data Mining и аналитическом мышлении
Фостер Провост 2013 413 стр.
4.13
2 000+ оценок
Слушать
Попробуйте полный доступ на 3 дня
Откройте прослушивание и многое другое!
Продолжить

Ключевые идеи

1. Data science — это искусство извлекать из данных ценные инсайты для решения бизнес-задач

Принятие решений на основе данных (data-driven decision-making, DDD) — это практика, когда решения принимаются не на интуиции, а на тщательном анализе данных.

Бизнес-ценность data science. Исследования показывают, что компании, которые внедряют DDD, повышают свою продуктивность на 4–6%. Вот ключевые направления применения:

  • Аналитика клиентов: прогноз оттока, таргетинг маркетинга, персонализация рекомендаций
  • Оптимизация операций: управление цепочками поставок, предиктивное обслуживание, выявление мошенничества
  • Финансовое моделирование: скоринг кредитоспособности, алгоритмическая торговля, оценка рисков

Основные принципы. Чтобы data science работал эффективно, нужно:

  • Чётко сформулировать бизнес-проблему и цели
  • Собрать и подготовить релевантные данные
  • Применить подходящие аналитические методы
  • Перевести результаты в конкретные рекомендации
  • Измерить эффект и при необходимости скорректировать подход

2. Переобучение — серьёзная проблема в анализе данных, которую нужно контролировать

Если слишком пристально изучать данные, можно найти закономерности, которые не работают за пределами этой выборки.

Что такое переобучение. Модель переобучается, когда она слишком точно запоминает шум в тренировочных данных, а не реальные закономерности. В итоге она плохо работает на новых данных.

Как избежать переобучения:

  • Кросс-валидация: разделение данных на обучающую и тестовую выборки
  • Регуляризация: штраф за излишнюю сложность модели
  • Раннее прекращение обучения: остановка до начала переобучения
  • Ансамблирование: объединение нескольких моделей
  • Отбор признаков: использование только самых важных переменных

Визуализация переобучения. Графики зависимости качества модели от её сложности показывают, где баланс между недообучением и переобучением.

3. Оценка моделей требует учёта затрат, выгод и бизнес-контекста

Важный навык data scientist — разбивать задачу на части, каждая из которых соответствует известной задаче с доступными инструментами.

Метрики оценки. Часто используют:

  • Классификация: точность, precision, recall, F1, AUC-ROC
  • Регрессия: среднеквадратичная ошибка, R², средняя абсолютная ошибка
  • Ранжирование: nDCG, MAP, MRR

Оценка с учётом бизнеса. Нужно учитывать:

  • Стоимость ложных срабатываний и пропусков
  • Операционные ограничения (ресурсы, задержки)
  • Регуляторные и этические требования
  • Потребности в интерпретируемости для заинтересованных лиц

Фреймворк ожидаемой ценности. Сочетайте вероятности с затратами и выгодами, чтобы оценить общий бизнес-эффект:
Ожидаемая ценность = Σ (вероятность исхода × ценность исхода)

4. Текст и неструктурированные данные требуют особой подготовки

Текст называют «неструктурированными» данными, потому что он не организован в привычные таблицы с фиксированными полями.

Этапы подготовки текста:

  1. Токенизация: разбиение текста на слова или токены
  2. Приведение к нижнему регистру
  3. Удаление пунктуации и спецсимволов
  4. Удаление стоп-слов (часто встречающихся слов вроде «и», «в»)
  5. Стемминг/лемматизация: приведение слов к базовой форме

Представление текста:

  • Мешок слов: текст как набор слов без порядка
  • TF-IDF: взвешивание слов по частоте и уникальности
  • Векторные представления слов (например, Word2Vec)
  • N-граммы: учёт сочетаний слов

Продвинутые методы:

  • Распознавание именованных сущностей: люди, организации, места
  • Тематическое моделирование: выявление скрытых тем в текстах
  • Анализ тональности: определение позитивной или негативной окраски

5. Меры сходства и расстояния — основа многих задач анализа данных

Как только объект можно представить в виде данных, можно говорить о степени его сходства или расстоянии до других объектов.

Популярные меры расстояния:

  • Евклидово расстояние: прямая линия в многомерном пространстве
  • Манхэттенское расстояние: сумма абсолютных разностей
  • Косинусное сходство: угол между векторами (часто для текста)
  • Коэффициент Жаккара: пересечение множеств
  • Расстояние редактирования: число операций для преобразования одной строки в другую

Применение сходства:

  • Кластеризация: группировка похожих объектов
  • Метод ближайших соседей: классификация и регрессия по похожим примерам
  • Рекомендательные системы: поиск похожих пользователей или товаров
  • Обнаружение аномалий: выявление выбросов

Выбор меры расстояния. Учитывайте:

  • Тип данных (числовые, категориальные, текстовые)
  • Масштаб и распределение признаков
  • Вычислительную эффективность
  • Специфику предметной области

6. Визуализация работы моделей — ключ к оценке и коммуникации

За пределами команды data science заинтересованные лица часто хотят видеть простое и понятное представление результатов.

Основные методы визуализации:

  • ROC-кривые: соотношение истинных и ложных срабатываний
  • Precision-recall кривые: точность и полнота при разных порогах
  • Lift charts: эффективность модели по сравнению со случайным выбором
  • Матрицы ошибок: разбор правильных и ошибочных предсказаний
  • Кривые обучения: качество модели в зависимости от размера обучающей выборки
  • Графики важности признаков: вклад переменных в модель

Преимущества визуализации:

  • Понятное общение с нетехническими участниками
  • Сравнение нескольких моделей на одном графике
  • Поиск оптимальных порогов принятия решений
  • Диагностика слабых мест и смещений модели

Рекомендации:

  • Подбирайте визуализации под задачу и аудиторию
  • Используйте единые цветовые схемы и подписи
  • Объясняйте и интерпретируйте графики
  • Добавляйте базовые уровни для сравнения

7. Вероятностное мышление и байесовские методы — мощные инструменты data science

Правило Байеса разбивает апостериорную вероятность на три составляющие, которые видны справа.

Байесовский подход. Объединяет априорные знания с новыми данными для обновления вероятностей:
P(H|E) = P(E|H) × P(H) / P(E)

  • P(H|E): вероятность гипотезы при условии данных
  • P(E|H): вероятность данных при условии гипотезы
  • P(H): априорная вероятность гипотезы
  • P(E): вероятность данных

Применение:

  • Наивный байесовский классификатор
  • Байесовские сети для причинно-следственного анализа
  • A/B тестирование и эксперименты
  • Обнаружение аномалий
  • Обработка естественного языка

Преимущества байесовских методов:

  • Включение предварительных знаний
  • Явное учёт неопределённости
  • Пошаговое обновление убеждений с новыми данными
  • Вероятностные прогнозы

8. Подготовка данных и создание признаков — основа качественного моделирования

Часто успех решения зависит от того, насколько хорошо аналитики структурируют задачу и создают переменные.

Этапы подготовки данных:

  1. Очистка: работа с пропусками, выбросами, ошибками
  2. Интеграция: объединение данных из разных источников
  3. Преобразование: масштабирование, нормализация, кодирование категорий
  4. Сокращение: отбор признаков, уменьшение размерности

Методы создания признаков:

  • Взаимодействия между переменными
  • Бининг непрерывных признаков
  • Извлечение временных характеристик (день недели, сезонность)
  • Специфические преобразования для предметной области (например, логарифмические доходности в финансах)

Роль экспертных знаний. Эффективное создание признаков требует:

  • Понимания бизнес-задачи
  • Знания процессов генерации данных
  • Советов экспертов в предметной области
  • Итеративного тестирования и валидации

9. Основные задачи анализа данных — классификация, регрессия, кластеризация и обнаружение аномалий

Несмотря на множество алгоритмов, все задачи сводятся к нескольким фундаментальным типам.

Ключевые задачи:

  • Классификация: предсказание категорий (например, спам или не спам)
  • Регрессия: предсказание числовых значений (например, цена дома)
  • Кластеризация: группировка похожих объектов (например, сегментация клиентов)
  • Обнаружение аномалий: выявление необычных паттернов (например, мошенничество)
  • Поиск ассоциативных правил: выявление связей между переменными

Популярные алгоритмы:

  • Классификация: деревья решений, логистическая регрессия, SVM
  • Регрессия: линейная регрессия, случайный лес, градиентный бустинг
  • Кластеризация: k-средних, иерархическая кластеризация, DBSCAN
  • Обнаружение аномалий: изоляционные леса, автокодировщики, одно-классовый SVM
  • Ассоциативные правила: алгоритмы Apriori, FP-growth

Выбор задачи. Учитывайте:

  • Тип целевой переменной
  • Бизнес-цели и ограничения
  • Доступные данные и их особенности
  • Требования к интерпретируемости

10. Процесс анализа данных — итеративный и требует понимания бизнеса

Анализ данных — это баланс между сложностью модели и риском переобучения.

Фреймворк CRISP-DM:

  1. Понимание бизнеса: постановка целей и требований
  2. Понимание данных: сбор и первичный анализ
  3. Подготовка данных: очистка, интеграция, форматирование
  4. Моделирование: выбор и применение методов
  5. Оценка: проверка качества модели с точки зрения бизнеса
  6. Внедрение: интеграция модели в бизнес-процессы

Итеративность. Проекты часто требуют:

  • Многократного прохождения этапов
  • Корректировки постановки задачи по результатам
  • Сбора дополнительных данных или признаков
  • Проб различных моделей
  • Пересмотра критериев оценки

Значение бизнес-контекста:

  • Согласование работы с приоритетами компании
  • Перевод технических результатов в бизнес-ценность
  • Управление ожиданиями заинтересованных лиц
  • Обеспечение этичности и ответственности при работе с данными и моделями

Обновлено:

Report Issue

Обзор отзывов

4.13 из 5
На основе 2 000+ оценок с Goodreads и Amazon.

Книга «Data Science for Business» заслужила в основном положительные отзывы. Читатели отмечают её практический подход и ясное объяснение концепций науки о данных применительно к бизнесу. Многие считают её полезной как для новичков, так и для опытных специалистов, подчеркивая, что она помогает преодолеть разрыв между техническими и бизнес-аспектами. Некоторые рецензенты признают, что местами материал может показаться сложным и насыщенным, но в целом книга воспринимается как всестороннее введение в науку о данных в бизнес-контексте. Немногочисленные критики считают, что в некоторых разделах текст излишне поверхностен или многословен.

Your rating:
4.51
462 оценок
Want to read the full book?

Частые вопросы

What's Data Science for Business about?

  • Comprehensive Overview: Data Science for Business by Foster Provost provides a detailed introduction to data science principles and their application in business contexts. It focuses on understanding data mining concepts rather than just algorithms.
  • Target Audience: The book is aimed at business professionals, developers, and aspiring data scientists who want to leverage data for decision-making, bridging the gap between technical and business teams.
  • Practical Examples: It includes real-world examples, such as customer churn and targeted marketing, to demonstrate how data science can solve practical business problems.

Why should I read Data Science for Business?

  • Essential for Modern Business: The book emphasizes that in today's world, data is integral to business, and understanding data science is crucial for informed decision-making.
  • Accessible to All Levels: Complex topics are made accessible, making it suitable for readers with varying expertise levels, particularly beneficial for business managers working with data scientists.
  • Foundational Knowledge: It provides foundational concepts essential for anyone looking to understand or work in data-driven environments.

What are the key takeaways of Data Science for Business?

  • Data-Analytic Thinking: The book stresses the importance of thinking analytically about data to improve decision-making, introducing a structured approach to problem-solving using data.
  • Understanding Overfitting: A significant takeaway is the concept of overfitting, where models perform well on training data but poorly on unseen data, highlighting the importance of generalization.
  • Model Evaluation Techniques: It discusses methods for evaluating models, such as cross-validation, to ensure they perform well on new data, crucial for building reliable data-driven solutions.

What is overfitting, and why is it important in Data Science for Business?

  • Definition of Overfitting: Overfitting occurs when a model learns the training data too well, capturing noise and outliers rather than the underlying pattern, leading to poor performance on unseen data.
  • Generalization vs. Memorization: A good model should generalize well to new data rather than simply memorizing the training set, which is key to making accurate predictions in real-world applications.
  • Avoiding Overfitting: Techniques such as cross-validation, pruning in tree models, and regularization in regression models are discussed to avoid overfitting, maintaining a balance between model complexity and performance.

How does Data Science for Business define data-analytic thinking?

  • Structured Approach: Data-analytic thinking is described as a structured way of approaching business problems using data, involving identifying relevant data, applying appropriate methods, and interpreting results.
  • Framework for Decision-Making: The book provides frameworks that help readers systematically analyze problems and make data-driven decisions, aligning business strategies with data insights.
  • Integration of Creativity and Domain Knowledge: Effective data-analytic thinking combines analytical skills with creativity and domain knowledge, leading to better problem-solving outcomes.

What is the CRISP-DM process in Data Science for Business?

  • Structured Framework: CRISP-DM stands for Cross-Industry Standard Process for Data Mining, a structured framework for data mining projects consisting of six phases: business understanding, data understanding, data preparation, modeling, evaluation, and deployment.
  • Iterative Nature: The process is iterative, allowing insights gained in one phase to lead to revisiting previous phases, enabling continuous improvement and refinement of data science projects.
  • Applicability Across Industries: CRISP-DM is designed to be applicable across various industries, providing a common language and methodology for professionals working in different sectors.

What is the expected value framework in Data Science for Business?

  • Decision-Making Tool: The expected value framework helps in evaluating the potential benefits and costs associated with different decisions, allowing businesses to quantify expected outcomes based on historical data.
  • Components of Expected Value: It consists of probabilities of different outcomes and their associated values, calculated from data, aiding in making informed decisions that maximize profit or minimize costs.
  • Application in Business Problems: The framework can be applied to various business scenarios, such as targeted marketing and customer retention strategies, identifying the most profitable actions based on data analysis.

How does Data Science for Business address overfitting in data models?

  • Overfitting Explanation: Overfitting occurs when a model captures noise in the training data rather than the underlying pattern, leading to poor performance on unseen data.
  • Model Evaluation Techniques: Techniques like cross-validation are emphasized to assess model performance and mitigate overfitting, ensuring models generalize well.
  • Complexity Control: Methods for controlling model complexity, such as regularization and feature selection, are discussed to build models that balance fit and complexity, reducing the risk of overfitting.

What is the significance of similarity in data science as discussed in Data Science for Business?

  • Foundation of Many Techniques: Similarity underlies various data science methods, including clustering and classification, helping in grouping and predicting data points effectively.
  • Applications in Business: Similarity is used in practical applications like customer segmentation and recommendation systems, allowing businesses to target marketing efforts and improve customer engagement.
  • Mathematical Representation: Similarity can be quantified using distance metrics, such as Euclidean distance, allowing for systematic analysis and comparison of data points.

What are the different types of models discussed in Data Science for Business?

  • Predictive Models: The book covers predictive modeling techniques, including classification trees, logistic regression, and nearest-neighbor methods, each suitable for different data types and business problems.
  • Clustering Models: Clustering techniques group similar data points, helping businesses understand customer segments and behaviors, revealing insights for marketing strategies and product development.
  • Text Mining Models: Text mining techniques, such as bag-of-words and TFIDF, are essential for analyzing unstructured data, enabling businesses to extract valuable information from textual data sources.

What is the bag-of-words representation in text mining according to Data Science for Business?

  • Basic Concept: The bag-of-words representation treats each document as a collection of individual words, ignoring grammar and word order, simplifying text data for analysis.
  • Term Frequency: Each word is represented by its frequency of occurrence, allowing for the identification of important terms, further enhanced by techniques like TFIDF to weigh terms based on rarity.
  • Applications: Widely used in text classification, sentiment analysis, and information retrieval, it provides a straightforward way to convert text into numerical data for machine learning algorithms.

What role does domain knowledge play in data science according to Data Science for Business?

  • Enhancing Model Validity: Domain knowledge is crucial for validating models and ensuring they make sense in the business context, helping data scientists interpret results and refine analyses.
  • Guiding Feature Selection: Understanding the domain allows data scientists to select relevant features likely to impact the target variable, improving model performance and relevance.
  • Facilitating Communication: Domain knowledge aids communication between data scientists and business stakeholders, ensuring a shared understanding of the problem and data, leading to effective collaboration.

Об авторе

Фостер Провост — признанный эксперт в области науки о данных и опытный педагог. Он стал соавтором книги «Data Science for Business», которая быстро завоевала популярность как учебник для бизнес-профессионалов, желающих понять основы науки о данных. Провост делает сложные темы доступными и понятными, показывая, как применять их в реальных бизнес-ситуациях. Его опыт охватывает как академическую среду, так и промышленность — он вносит вклад в развитие области через исследования, преподавание и практические проекты. Подход Провоста строится на важности глубокого понимания основ науки о данных для принятия обоснованных решений в бизнесе. Его книга получила высокую оценку за ясность изложения и практическую пользу, помогая преодолеть разрыв между техническими концепциями и их применением в бизнесе.

Follow
Слушать
Now playing
Data Science для бизнеса
0:00
-0:00
Now playing
Data Science для бизнеса
0:00
-0:00
1x
Queue
Home
Swipe
Library
Get App
Try Full Access for 3 Days
Listen, bookmark, and more
Compare Features Free Pro
📖 Read Summaries
Read unlimited summaries. Free users get 3 per month
🎧 Listen to Summaries
Listen to unlimited summaries in 40 languages
❤️ Unlimited Bookmarks
Free users are limited to 4
📜 Unlimited History
Free users are limited to 4
📥 Unlimited Downloads
Free users are limited to 1
Risk-Free Timeline
Сегодня: мгновенный доступ
Слушайте полные саммари 26 000+ книг. Это более 12 000 часов аудио!
День 2: напоминание о пробном периоде
Мы отправим вам уведомление об окончании пробного периода.
День 3: начало подписки
Оплата будет списана Jun 13,
отмените в любой момент до этой даты.
Consume 2.8× More Books
2.8× more books Listening Reading
Our users love us
600,000+ readers
Trustpilot Rating
TrustPilot
4.6 Excellent
This site is a total game-changer. I've been flying through book summaries like never before. Highly, highly recommend.
— Dave G
Worth my money and time, and really well made. I've never seen this quality of summaries on other websites. Very helpful!
— Em
Highly recommended!! Fantastic service. Perfect for those that want a little more than a teaser but not all the intricate details of a full audio book.
— Greg M
Save 62%
Yearly
$119.88 $44.99/year/yr
$3.75/mo
Monthly
$9.99/mo
Start a 3-Day Free Trial
3 days free, then $44.99/year. Cancel anytime.
Unlock a world of fiction & nonfiction books
26,000+ books for the price of 2 books
Read any book in 10 minutes
Discover new books like Tinder
Request any book if it's not summarized
Read more books than anyone you know
#1 app for book lovers
Lifelike & immersive summaries
30-day money-back guarantee
Download summaries in EPUBs or PDFs
Cancel anytime in a few clicks
Scanner
Find a barcode to scan

We have a special gift for you
Open
38% OFF
DISCOUNT FOR YOU
$79.99
$49.99/year
only $4.16 per month
Continue
2 taps to start, super easy to cancel
Settings
General
Widget
Loading...
We have a special gift for you
Open
38% OFF
DISCOUNT FOR YOU
$79.99
$49.99/year
only $4.16 per month
Continue
2 taps to start, super easy to cancel