Facebook Pixel
Searching...
Français
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Data Science for Business

Data Science for Business

What You Need to Know about Data Mining and Data-Analytic Thinking
par Foster Provost 2013 413 pages
4.13
2k+ évaluations
Écouter

Points clés

1. La science des données consiste à extraire des informations exploitables à partir des données pour résoudre des problèmes commerciaux

La prise de décision basée sur les données (DDD) se réfère à la pratique de fonder les décisions sur l'analyse des données, plutôt que sur l'intuition seule.

Valeur commerciale de la science des données. La prise de décision basée sur les données a démontré une amélioration significative des performances commerciales, une étude ayant révélé que les entreprises adoptant la DDD voient une augmentation de 4 à 6 % de leur productivité. Les principales applications commerciales incluent :

  • Analyse client : Prédiction de l'attrition, ciblage marketing, personnalisation des recommandations
  • Optimisation opérationnelle : Gestion de la chaîne d'approvisionnement, maintenance prédictive, détection de fraude
  • Modélisation financière : Évaluation du crédit, trading algorithmique, évaluation des risques

Principes fondamentaux. Une science des données efficace nécessite :

  • Définir clairement le problème commercial et les objectifs
  • Collecter et préparer les données pertinentes
  • Appliquer des techniques analytiques appropriées
  • Traduire les résultats en informations exploitables
  • Mesurer l'impact et itérer

2. Le surapprentissage est un défi critique en fouille de données qui doit être soigneusement géré

Si vous examinez trop attentivement un ensemble de données, vous trouverez quelque chose — mais cela pourrait ne pas se généraliser au-delà des données que vous examinez.

Comprendre le surapprentissage. Le surapprentissage se produit lorsqu'un modèle apprend trop bien le bruit dans les données d'entraînement, capturant des fluctuations aléatoires plutôt que de véritables motifs sous-jacents. Cela entraîne une mauvaise généralisation aux nouvelles données.

Techniques pour prévenir le surapprentissage :

  • Validation croisée : Utilisation de jeux de données d'entraînement et de test séparés
  • Régularisation : Ajout d'une pénalité pour la complexité du modèle
  • Arrêt précoce : Arrêter l'entraînement avant que le surapprentissage ne se produise
  • Méthodes d'ensemble : Combinaison de plusieurs modèles
  • Sélection de caractéristiques : Utilisation uniquement des variables les plus pertinentes

Visualisation du surapprentissage. Les courbes d'ajustement montrent la performance du modèle sur les données d'entraînement et de test à mesure que la complexité du modèle augmente. Le modèle optimal équilibre le sous-apprentissage et le surapprentissage.

3. L'évaluation des modèles nécessite de considérer les coûts, les bénéfices et le contexte commercial spécifique

Une compétence critique en science des données est la capacité de décomposer un problème d'analyse de données en morceaux de sorte que chaque morceau corresponde à une tâche connue pour laquelle des outils sont disponibles.

Métriques d'évaluation. Les métriques courantes incluent :

  • Classification : Précision, précision, rappel, F1-score, AUC-ROC
  • Régression : Erreur quadratique moyenne, R-carré, erreur absolue moyenne
  • Classement : nDCG, MAP, MRR

Évaluation alignée sur les affaires. Considérez :

  • Coûts des faux positifs vs. faux négatifs
  • Contraintes opérationnelles (par exemple, ressources de calcul, exigences de latence)
  • Implications réglementaires et éthiques
  • Besoins d'interprétabilité pour les parties prenantes

Cadre de valeur attendue. Combinez les probabilités avec les coûts/bénéfices pour estimer l'impact commercial global :
Valeur attendue = Σ (Probabilité de l'issue * Valeur de l'issue)

4. Les données textuelles et non structurées nécessitent des techniques de prétraitement spéciales

Le texte est souvent qualifié de données "non structurées". Cela fait référence au fait que le texte n'a pas la sorte de structure que nous attendons normalement pour les données : des tableaux d'enregistrements avec des champs ayant des significations fixes.

Étapes de prétraitement du texte :

  1. Tokenisation : Division du texte en mots/tokens individuels
  2. Mise en minuscule : Normalisation de la casse
  3. Suppression de la ponctuation et des caractères spéciaux
  4. Suppression des mots vides (mots courants comme "le", "et")
  5. Stemming/lemmatisation : Réduction des mots à leurs formes de base

Représentation du texte :

  • Sac de mots : Considérer le texte comme un ensemble non ordonné de mots
  • TF-IDF : Pondération des mots par fréquence et unicité
  • Word embeddings : Représentations vectorielles denses (par exemple, Word2Vec)
  • N-grams : Capture des phrases multi-mots

Techniques avancées :

  • Reconnaissance d'entités nommées : Identification des personnes, organisations, lieux
  • Modélisation de sujets : Découverte de thèmes latents dans les collections de documents
  • Analyse de sentiment : Détermination du sentiment positif/négatif

5. Les mesures de similarité et de distance sont fondamentales pour de nombreuses tâches de fouille de données

Une fois qu'un objet peut être représenté sous forme de données, nous pouvons commencer à parler plus précisément de la similarité entre les objets, ou alternativement de la distance entre les objets.

Mesures de distance courantes :

  • Distance euclidienne : Distance en ligne droite dans un espace n-dimensionnel
  • Distance de Manhattan : Somme des différences absolues
  • Similarité cosinus : Angle entre les vecteurs (courant pour le texte)
  • Similarité de Jaccard : Chevauchement entre ensembles
  • Distance d'édition : Nombre d'opérations pour transformer une chaîne en une autre

Applications de la similarité :

  • Regroupement : Regroupement d'objets similaires
  • Méthodes des plus proches voisins : Classification/régression basée sur des exemples similaires
  • Systèmes de recommandation : Trouver des utilisateurs ou des articles similaires
  • Détection d'anomalies : Identification des valeurs aberrantes éloignées des autres points

Choisir une mesure de distance. Considérez :

  • Type de données (numérique, catégoriel, texte, etc.)
  • Échelle et distribution des caractéristiques
  • Efficacité computationnelle
  • Notions de similarité spécifiques au domaine

6. Visualiser la performance des modèles est crucial pour l'évaluation et la communication

Les parties prenantes extérieures à l'équipe de science des données peuvent avoir peu de patience pour les détails et voudront souvent une vue plus intuitive et de haut niveau de la performance du modèle.

Techniques de visualisation clés :

  • Courbes ROC : Taux de vrais positifs vs. taux de faux positifs
  • Courbes précision-rappel : Précision vs. rappel à différents seuils
  • Graphiques de levée : Performance du modèle vs. base aléatoire
  • Matrices de confusion : Répartition des prédictions correctes/incorrectes
  • Courbes d'apprentissage : Performance vs. taille de l'ensemble d'entraînement
  • Graphiques d'importance des caractéristiques : Impact relatif des différentes variables

Avantages de la visualisation :

  • Communication intuitive avec les parties prenantes non techniques
  • Comparaison de plusieurs modèles sur le même graphique
  • Identification des points/seuils de fonctionnement optimaux
  • Diagnostic des faiblesses et biais du modèle

Meilleures pratiques :

  • Choisir des visualisations appropriées pour la tâche et le public
  • Utiliser des schémas de couleurs et des étiquetages cohérents
  • Fournir des explications et interprétations claires
  • Inclure la performance de base/aléatoire pour le contexte

7. Le raisonnement probabiliste et les méthodes bayésiennes sont des outils puissants en science des données

La règle de Bayes décompose la probabilité a posteriori en trois quantités que nous voyons sur le côté droit.

Raisonnement bayésien. Combine les croyances antérieures avec de nouvelles preuves pour mettre à jour les probabilités :
P(H|E) = P(E|H) * P(H) / P(E)

  • P(H|E) : Probabilité a posteriori de l'hypothèse donnée la preuve
  • P(E|H) : Vraisemblance de la preuve donnée l'hypothèse
  • P(H) : Probabilité a priori de l'hypothèse
  • P(E) : Probabilité de la preuve

Applications :

  • Classification naïve bayésienne
  • Réseaux bayésiens pour le raisonnement causal
  • Tests A/B et expérimentation
  • Détection d'anomalies
  • Traitement du langage naturel

Avantages des méthodes bayésiennes :

  • Incorporation des connaissances antérieures
  • Gestion explicite de l'incertitude
  • Mise à jour des croyances de manière incrémentale avec de nouvelles données
  • Fourniture de prédictions probabilistes

8. La préparation des données et l'ingénierie des caractéristiques sont essentielles pour un modélisation efficace

Souvent, la qualité de la solution de fouille de données repose sur la manière dont les analystes structurent les problèmes et élaborent les variables.

Étapes de préparation des données :

  1. Nettoyage des données : Gestion des valeurs manquantes, des valeurs aberrantes, des erreurs
  2. Intégration des données : Combinaison de données provenant de plusieurs sources
  3. Transformation des données : Mise à l'échelle, normalisation, encodage des variables catégorielles
  4. Réduction des données : Sélection de caractéristiques, réduction dimensionnelle

Techniques d'ingénierie des caractéristiques :

  • Création de termes d'interaction
  • Binning des variables continues
  • Extraction de caractéristiques temporelles (par exemple, jour de la semaine, saisonnalité)
  • Transformations spécifiques au domaine (par exemple, rendements logarithmiques en finance)

Importance des connaissances du domaine. Une ingénierie des caractéristiques efficace nécessite souvent :

  • Compréhension du problème commercial
  • Familiarité avec les processus de génération de données
  • Perspectives d'experts en la matière
  • Expérimentation et validation itératives

9. Les tâches fondamentales de la fouille de données incluent la classification, la régression, le regroupement et la détection d'anomalies

Malgré le grand nombre d'algorithmes spécifiques de fouille de données développés au fil des ans, il n'y a qu'une poignée de types de tâches fondamentalement différents que ces algorithmes abordent.

Tâches fondamentales de la fouille de données :

  • Classification : Prédiction de labels catégoriels (par exemple, détection de spam)
  • Régression : Prédiction de valeurs continues (par exemple, estimation du prix d'une maison)
  • Regroupement : Regroupement d'instances similaires (par exemple, segmentation de la clientèle)
  • Détection d'anomalies : Identification de motifs inhabituels (par exemple, détection de fraude)
  • Extraction de règles d'association : Découverte de relations entre variables

Algorithmes courants pour chaque tâche :

  • Classification : Arbres de décision, régression logistique, machines à vecteurs de support
  • Régression : Régression linéaire, forêts aléatoires, boosting de gradient
  • Regroupement : K-means, regroupement hiérarchique, DBSCAN
  • Détection d'anomalies : Forêts d'isolation, autoencodeurs, SVM à une classe
  • Règles d'association : Algorithme Apriori, croissance FP

Choisir la bonne tâche. Considérez :

  • Nature de la variable cible (le cas échéant)
  • Objectifs et contraintes commerciaux
  • Données disponibles et leurs caractéristiques
  • Exigences d'interprétabilité

10. Le processus de fouille de données est itératif et nécessite une compréhension commerciale

La fouille de données implique un compromis fondamental entre la complexité du modèle et la possibilité de surapprentissage.

Cadre CRISP-DM :

  1. Compréhension commerciale : Définir les objectifs et les exigences
  2. Compréhension des données : Collecter et explorer les données initiales
  3. Préparation des données : Nettoyer, intégrer et formater les données
  4. Modélisation : Sélectionner et appliquer des techniques de modélisation
  5. Évaluation : Évaluer la performance du modèle par rapport aux objectifs commerciaux
  6. Déploiement : Intégrer les modèles dans les processus commerciaux

Nature itérative. Les projets de fouille de données nécessitent souvent :

  • Plusieurs cycles à travers le processus
  • Raffinement de la formulation du problème basé sur les résultats initiaux
  • Collecte de données ou de caractéristiques supplémentaires
  • Essai d'approches de modélisation alternatives
  • Ajustement des critères d'évaluation

Importance du contexte commercial :

  • Aligner les efforts de science des données avec les priorités stratégiques
  • Traduire les résultats techniques en impact commercial
  • Gérer les attentes des parties prenantes
  • Assurer une utilisation éthique et responsable des données et des modèles

Dernière mise à jour:

Avis

4.13 sur 5
Moyenne de 2k+ évaluations de Goodreads et Amazon.

Data Science pour les entreprises reçoit majoritairement des critiques positives, les lecteurs louant son approche pratique et ses explications claires des concepts de la science des données pour les applications commerciales. Beaucoup le trouvent précieux tant pour les débutants que pour les professionnels expérimentés, soulignant son utilité pour combler le fossé entre les aspects techniques et commerciaux. Certains critiques notent que le livre peut être dense et exigeant, mais dans l'ensemble, il est considéré comme une introduction complète à la science des données dans un contexte commercial. Quelques critiques le trouvent trop superficiel ou verbeux dans certaines sections.

À propos de l'auteur

Foster Provost est un data scientist et éducateur accompli. Il a co-écrit "Data Science for Business", qui est devenu un manuel populaire pour introduire les concepts de la science des données aux professionnels du monde des affaires. Le travail de Provost se concentre sur la mise à disposition de sujets complexes de la science des données de manière accessible et applicable à des scénarios commerciaux réels. Il possède une vaste expérience à la fois dans le milieu académique et dans l'industrie, contribuant au domaine par la recherche, l'enseignement et les applications pratiques. L'approche de Provost souligne l'importance de comprendre les fondamentaux de la science des données pour une prise de décision éclairée dans les contextes commerciaux. Son livre a été largement salué pour sa clarté et ses perspectives pratiques, aidant à combler le fossé entre les concepts techniques de la science des données et leurs applications commerciales.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Create a free account to unlock:
Requests: Request new book summaries
Bookmarks: Save your favorite books
History: Revisit books later
Ratings: Rate books & see your ratings
Unlock Unlimited Listening
🎧 Listen while you drive, walk, run errands, or do other activities
2.8x more books Listening Reading
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Jan 25,
cancel anytime before.
Compare Features Free Pro
Read full text summaries
Summaries are free to read for everyone
Listen to summaries
12,000+ hours of audio
Unlimited Bookmarks
Free users are limited to 10
Unlimited History
Free users are limited to 10
What our users say
30,000+ readers
"...I can 10x the number of books I can read..."
"...exceptionally accurate, engaging, and beautifully presented..."
"...better than any amazon review when I'm making a book-buying decision..."
Save 62%
Yearly
$119.88 $44.99/year
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Settings
Appearance
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →