Facebook Pixel
Searching...
Polski
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Data Science for Business

Data Science for Business

What You Need to Know about Data Mining and Data-Analytic Thinking
przez Foster Provost 2013 413 stron
4.13
2k+ oceny
Słuchaj

Kluczowe wnioski

1. Nauka o danych polega na wydobywaniu użytecznych informacji z danych w celu rozwiązywania problemów biznesowych

Podejmowanie decyzji opartych na danych (DDD) odnosi się do praktyki podejmowania decyzji na podstawie analizy danych, a nie wyłącznie intuicji.

Wartość biznesowa nauki o danych. Wykazano, że podejmowanie decyzji opartych na danych znacząco poprawia wyniki biznesowe, a jedno z badań wykazało, że firmy stosujące DDD odnotowują wzrost wydajności o 4-6%. Kluczowe zastosowania biznesowe obejmują:

  • Analizę klientów: przewidywanie odejść, ukierunkowanie marketingu, personalizację rekomendacji
  • Optymalizację operacyjną: zarządzanie łańcuchem dostaw, predykcyjne utrzymanie, wykrywanie oszustw
  • Modelowanie finansowe: ocena kredytowa, handel algorytmiczny, ocena ryzyka

Podstawowe zasady. Skuteczna nauka o danych wymaga:

  • Jasnego zdefiniowania problemu biznesowego i celów
  • Zbierania i przygotowywania odpowiednich danych
  • Zastosowania odpowiednich technik analitycznych
  • Przekładania wyników na użyteczne informacje
  • Mierzenia wpływu i iteracji

2. Przeuczenie to istotne wyzwanie w eksploracji danych, które należy starannie zarządzać

Jeśli zbyt intensywnie przyjrzysz się zestawowi danych, znajdziesz coś — ale może to nie być uogólnione poza dane, które analizujesz.

Zrozumienie przeuczenia. Przeuczenie występuje, gdy model zbyt dobrze uczy się szumów w danych treningowych, uchwycając losowe fluktuacje zamiast prawdziwych wzorców. Skutkuje to słabą generalizacją na nowe dane.

Techniki zapobiegania przeuczeniu:

  • Walidacja krzyżowa: użycie oddzielnych zbiorów treningowych i testowych
  • Regularyzacja: dodanie kary za złożoność modelu
  • Wczesne zatrzymanie: przerwanie treningu przed wystąpieniem przeuczenia
  • Metody zespołowe: łączenie wielu modeli
  • Selekcja cech: używanie tylko najbardziej istotnych zmiennych

Wizualizacja przeuczenia. Krzywe dopasowania pokazują wydajność modelu na danych treningowych i testowych w miarę wzrostu złożoności modelu. Optymalny model równoważy niedouczenie i przeuczenie.

3. Ocena modeli wymaga uwzględnienia kosztów, korzyści i specyficznego kontekstu biznesowego

Krytyczną umiejętnością w nauce o danych jest zdolność do rozkładania problemu analitycznego na części, tak aby każda część odpowiadała znanemu zadaniu, dla którego dostępne są narzędzia.

Metryki oceny. Powszechne metryki obejmują:

  • Klasyfikacja: dokładność, precyzja, czułość, F1-score, AUC-ROC
  • Regresja: średni błąd kwadratowy, R-kwadrat, średni błąd bezwzględny
  • Ranking: nDCG, MAP, MRR

Ocena zgodna z biznesem. Należy rozważyć:

  • Koszty fałszywych pozytywów w porównaniu do fałszywych negatywów
  • Ograniczenia operacyjne (np. zasoby obliczeniowe, wymagania dotyczące opóźnienia)
  • Implikacje regulacyjne i etyczne
  • Potrzeby interpretacyjne dla interesariuszy

Ramowy model wartości oczekiwanej. Połącz prawdopodobieństwa z kosztami/korzyściami, aby oszacować ogólny wpływ na biznes:
Wartość Oczekiwana = Σ (Prawdopodobieństwo Wyniku * Wartość Wyniku)

4. Tekst i dane nieustrukturyzowane wymagają specjalnych technik wstępnego przetwarzania

Tekst często określa się jako dane "nieustrukturyzowane". Odnosi się to do faktu, że tekst nie ma takiej struktury, jakiej zazwyczaj oczekujemy od danych: tabel rekordów z polami o stałych znaczeniach.

Kroki wstępnego przetwarzania tekstu:

  1. Tokenizacja: dzielenie tekstu na pojedyncze słowa/tokeny
  2. Ujednolicanie wielkości liter: normalizacja wielkości liter
  3. Usuwanie znaków interpunkcyjnych i specjalnych
  4. Usuwanie słów stop (powszechnych słów, takich jak "the", "i")
  5. Stemming/lema: redukcja słów do form podstawowych

Reprezentacja tekstu:

  • Bag-of-words: traktowanie tekstu jako nieuporządkowanego zbioru słów
  • TF-IDF: ważenie słów według częstotliwości i unikalności
  • Osadzenia słów: gęste reprezentacje wektorowe (np. Word2Vec)
  • N-gramy: uchwycenie fraz wielowyrazowych

Zaawansowane techniki:

  • Rozpoznawanie nazwanych bytów: identyfikacja osób, organizacji, lokalizacji
  • Modelowanie tematów: odkrywanie ukrytych tematów w zbiorach dokumentów
  • Analiza sentymentu: określanie pozytywnego/negatywnego sentymentu

5. Miary podobieństwa i odległości są fundamentalne dla wielu zadań eksploracji danych

Gdy obiekt można przedstawić jako dane, możemy zacząć mówić bardziej precyzyjnie o podobieństwie między obiektami lub alternatywnie o odległości między obiektami.

Powszechne miary odległości:

  • Odległość euklidesowa: odległość w linii prostej w przestrzeni n-wymiarowej
  • Odległość Manhattan: suma różnic bezwzględnych
  • Podobieństwo cosinusowe: kąt między wektorami (często stosowane w przypadku tekstu)
  • Podobieństwo Jaccarda: nakładanie się zbiorów
  • Odległość edycyjna: liczba operacji potrzebnych do przekształcenia jednego ciągu w inny

Zastosowania podobieństwa:

  • Klasteryzacja: grupowanie podobnych obiektów
  • Metody najbliższego sąsiada: klasyfikacja/regresja na podstawie podobnych przykładów
  • Systemy rekomendacyjne: znajdowanie podobnych użytkowników lub przedmiotów
  • Wykrywanie anomalii: identyfikowanie punktów odstających daleko od innych punktów

Wybór miary odległości. Należy rozważyć:

  • Typ danych (numeryczne, kategoryczne, tekstowe itp.)
  • Skala i rozkład cech
  • Wydajność obliczeniowa
  • Specyficzne dla dziedziny pojęcia podobieństwa

6. Wizualizacja wydajności modelu jest kluczowa dla oceny i komunikacji

Interesariusze spoza zespołu nauki o danych mogą mieć mało cierpliwości do szczegółów i często będą chcieli wyższego, bardziej intuicyjnego widoku wydajności modelu.

Kluczowe techniki wizualizacji:

  • Krzywe ROC: wskaźnik prawdziwych pozytywów w porównaniu do wskaźnika fałszywych pozytywów
  • Krzywe precyzji i czułości: precyzja w porównaniu do czułości przy różnych progach
  • Wykresy liftu: wydajność modelu w porównaniu do losowej podstawy
  • Macierze pomyłek: podział poprawnych/niepoprawnych prognoz
  • Krzywe uczenia: wydajność w porównaniu do rozmiaru zbioru treningowego
  • Wykresy ważności cech: względny wpływ różnych zmiennych

Korzyści z wizualizacji:

  • Intuicyjna komunikacja z interesariuszami nietechnicznymi
  • Porównywanie wielu modeli na tym samym wykresie
  • Identyfikowanie optymalnych punktów/ progów działania
  • Diagnozowanie słabości i uprzedzeń modelu

Najlepsze praktyki:

  • Wybieraj odpowiednie wizualizacje dla zadania i odbiorców
  • Używaj spójnych schematów kolorów i etykiet
  • Zapewnij jasne wyjaśnienia i interpretacje
  • Uwzględnij wydajność bazową/losową dla kontekstu

7. Rozumowanie probabilistyczne i metody bayesowskie są potężnymi narzędziami w nauce o danych

Reguła Bayesa rozkłada prawdopodobieństwo posteriori na trzy ilości, które widzimy po prawej stronie.

Rozumowanie bayesowskie. Łączy wcześniejsze przekonania z nowymi dowodami, aby zaktualizować prawdopodobieństwa:
P(H|E) = P(E|H) * P(H) / P(E)

  • P(H|E): prawdopodobieństwo posteriori hipotezy w świetle dowodów
  • P(E|H): prawdopodobieństwo dowodów w świetle hipotezy
  • P(H): prawdopodobieństwo wcześniejsze hipotezy
  • P(E): prawdopodobieństwo dowodów

Zastosowania:

  • Klasyfikacja Naive Bayes
  • Sieci bayesowskie do rozumowania przyczynowego
  • Testy A/B i eksperymenty
  • Wykrywanie anomalii
  • Przetwarzanie języka naturalnego

Zalety metod bayesowskich:

  • Uwzględnianie wcześniejszej wiedzy
  • Jawne radzenie sobie z niepewnością
  • Stopniowe aktualizowanie przekonań na podstawie nowych danych
  • Dostarczanie prognoz probabilistycznych

8. Przygotowanie danych i inżynieria cech są niezbędne dla skutecznego modelowania

Często jakość rozwiązania w eksploracji danych zależy od tego, jak dobrze analitycy strukturyzują problemy i tworzą zmienne.

Kroki przygotowania danych:

  1. Czyszczenie danych: radzenie sobie z brakującymi wartościami, wartościami odstającymi, błędami
  2. Integracja danych: łączenie danych z wielu źródeł
  3. Transformacja danych: skalowanie, normalizacja, kodowanie zmiennych kategorycznych
  4. Redukcja danych: selekcja cech, redukcja wymiarowości

Techniki inżynierii cech:

  • Tworzenie terminów interakcji
  • Grupowanie zmiennych ciągłych
  • Ekstrakcja cech czasowych (np. dzień tygodnia, sezonowość)
  • Transformacje specyficzne dla dziedziny (np. logarytmy zwrotów w finansach)

Znaczenie wiedzy z dziedziny. Skuteczna inżynieria cech często wymaga:

  • Zrozumienia problemu biznesowego
  • Znajomości procesów generowania danych
  • Wglądu od ekspertów w danej dziedzinie
  • Iteracyjnego eksperymentowania i walidacji

9. Podstawowe zadania eksploracji danych obejmują klasyfikację, regresję, klasteryzację i wykrywanie anomalii

Pomimo dużej liczby specyficznych algorytmów eksploracji danych opracowanych na przestrzeni lat, istnieje tylko kilka zasadniczo różnych typów zadań, które te algorytmy rozwiązują.

Podstawowe zadania eksploracji danych:

  • Klasyfikacja: przewidywanie etykiet kategorycznych (np. wykrywanie spamu)
  • Regresja: przewidywanie wartości ciągłych (np. oszacowanie ceny domu)
  • Klasteryzacja: grupowanie podobnych instancji (np. segmentacja klientów)
  • Wykrywanie anomalii: identyfikowanie nietypowych wzorców (np. wykrywanie oszustw)
  • Wydobywanie reguł asocjacyjnych: odkrywanie relacji między zmiennymi

Powszechne algorytmy dla każdego zadania:

  • Klasyfikacja: drzewa decyzyjne, regresja logistyczna, maszyny wektorów nośnych
  • Regresja: regresja liniowa, lasy losowe, boosting gradientowy
  • Klasteryzacja: K-średnie, klasteryzacja hierarchiczna, DBSCAN
  • Wykrywanie anomalii: lasy izolacyjne, autoenkodery, SVM jednego klasy
  • Reguły asocjacyjne: algorytm Apriori, FP-growth

Wybór odpowiedniego zadania. Należy rozważyć:

  • Naturę zmiennej docelowej (jeśli w ogóle)
  • Cele i ograniczenia biznesowe
  • Dostępne dane i ich cechy
  • Wymagania dotyczące interpretowalności

10. Proces eksploracji danych jest iteracyjny i wymaga zrozumienia biznesu

Eksploracja danych wiąże się z fundamentalnym kompromisem między złożonością modelu a możliwością przeuczenia.

Ramowy model CRISP-DM:

  1. Zrozumienie biznesu: zdefiniowanie celów i wymagań
  2. Zrozumienie danych: zbieranie i eksploracja początkowych danych
  3. Przygotowanie danych: czyszczenie, integracja i formatowanie danych
  4. Modelowanie: wybór i zastosowanie technik modelowania
  5. Ocena: ocena wydajności modelu w kontekście celów biznesowych
  6. Wdrożenie: integracja modeli w procesy biznesowe

Iteracyjny charakter. Projekty eksploracji danych często wymagają:

  • Wielu cykli przez proces
  • Udoskonalania sformułowania problemu na podstawie wstępnych wyników
  • Zbierania dodatkowych danych lub cech
  • Wypróbowania alternatywnych podejść modelowania
  • Dostosowywania kryteriów oceny

Znaczenie kontekstu biznesowego:

  • Dostosowywanie wysiłków w zakresie nauki o danych do priorytetów strategicznych
  • Tłumaczenie wyników technicznych na wpływ na biznes
  • Zarządzanie oczekiwaniami interesariuszy
  • Zapewnienie etycznego i odpowiedzialnego wykorzystania danych i modeli

Ostatnia aktualizacja:

Recenzje

4.13 z 5
Średnia z 2k+ oceny z Goodreads i Amazon.

Nauka o danych dla biznesu otrzymuje przeważnie pozytywne recenzje, a czytelnicy chwalą jej praktyczne podejście oraz klarowne wyjaśnienia koncepcji nauki o danych w kontekście zastosowań biznesowych. Wiele osób uznaje ją za wartościową zarówno dla początkujących, jak i doświadczonych profesjonalistów, podkreślając jej przydatność w łączeniu aspektów technicznych z biznesowymi. Niektórzy recenzenci zauważają, że książka może być gęsta i wymagająca, jednak ogólnie uznawana jest za kompleksowe wprowadzenie do nauki o danych w kontekście biznesowym. Kilku krytyków uważa, że w niektórych fragmentach jest zbyt powierzchowna lub rozwlekła.

Your rating:

O autorze

Foster Provost to uznany naukowiec zajmujący się danymi oraz edukator. Jest współautorem książki "Data Science for Business", która stała się popularnym podręcznikiem wprowadzającym pojęcia nauki o danych dla profesjonalistów biznesowych. Praca Provosta koncentruje się na uczynieniu skomplikowanych tematów związanych z nauką o danych dostępnymi i użytecznymi w rzeczywistych scenariuszach biznesowych. Posiada on bogate doświadczenie zarówno w akademickim, jak i przemysłowym środowisku, przyczyniając się do rozwoju tej dziedziny poprzez badania, nauczanie oraz praktyczne zastosowania. Podejście Provosta podkreśla znaczenie zrozumienia podstaw nauki o danych dla podejmowania świadomych decyzji w kontekście biznesowym. Jego książka została szeroko doceniona za klarowność i praktyczne spostrzeżenia, pomagając w zniwelowaniu luki między technicznymi koncepcjami nauki o danych a ich zastosowaniami w biznesie.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Create a free account to unlock:
Requests: Request new book summaries
Bookmarks: Save your favorite books
History: Revisit books later
Ratings: Rate books & see your ratings
Unlock Unlimited Listening
🎧 Listen while you drive, walk, run errands, or do other activities
2.8x more books Listening Reading
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Jan 25,
cancel anytime before.
Compare Features Free Pro
Read full text summaries
Summaries are free to read for everyone
Listen to summaries
12,000+ hours of audio
Unlimited Bookmarks
Free users are limited to 10
Unlimited History
Free users are limited to 10
What our users say
30,000+ readers
"...I can 10x the number of books I can read..."
"...exceptionally accurate, engaging, and beautifully presented..."
"...better than any amazon review when I'm making a book-buying decision..."
Save 62%
Yearly
$119.88 $44.99/year
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Settings
Appearance
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →