Facebook Pixel
Searching...
Português
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Data Science for Business

Data Science for Business

What You Need to Know about Data Mining and Data-Analytic Thinking
por Foster Provost 2013 413 páginas
4.13
2k+ avaliações
Ouvir

Principais conclusões

1. A ciência de dados é sobre extrair insights acionáveis a partir de dados para resolver problemas de negócios

A tomada de decisão orientada por dados (DDD) refere-se à prática de basear decisões na análise de dados, em vez de apenas na intuição.

Valor comercial da ciência de dados. A tomada de decisão orientada por dados demonstrou melhorar significativamente o desempenho empresarial, com um estudo revelando que empresas que adotam DDD observam aumentos de 4-6% na produtividade. As principais aplicações comerciais incluem:

  • Análise de clientes: Previsão de churn, segmentação de marketing, personalização de recomendações
  • Otimização operacional: Gestão da cadeia de suprimentos, manutenção preditiva, detecção de fraudes
  • Modelagem financeira: Avaliação de crédito, negociação algorítmica, avaliação de riscos

Princípios fundamentais. A ciência de dados eficaz requer:

  • Definição clara do problema de negócios e dos objetivos
  • Coleta e preparação de dados relevantes
  • Aplicação de técnicas analíticas apropriadas
  • Tradução de resultados em insights acionáveis
  • Medição de impacto e iteração

2. O overfitting é um desafio crítico na mineração de dados que deve ser gerenciado com cuidado

Se você olhar com muita atenção para um conjunto de dados, encontrará algo — mas pode não ser generalizável além dos dados que está analisando.

Entendendo o overfitting. O overfitting ocorre quando um modelo aprende o ruído nos dados de treinamento de forma excessiva, capturando flutuações aleatórias em vez de padrões subjacentes reais. Isso resulta em uma má generalização para novos dados.

Técnicas para prevenir o overfitting:

  • Validação cruzada: Usar conjuntos de treinamento e teste separados
  • Regularização: Adicionar uma penalidade pela complexidade do modelo
  • Parada antecipada: Interromper o treinamento antes que o overfitting ocorra
  • Métodos de ensemble: Combinar múltiplos modelos
  • Seleção de características: Usar apenas as variáveis mais relevantes

Visualizando o overfitting. Gráficos de ajuste mostram o desempenho do modelo em dados de treinamento e teste à medida que a complexidade do modelo aumenta. O modelo ideal equilibra underfitting e overfitting.

3. Avaliar modelos requer considerar custos, benefícios e o contexto específico do negócio

Uma habilidade crítica na ciência de dados é a capacidade de decompor um problema de análise de dados em partes, de modo que cada parte corresponda a uma tarefa conhecida para a qual existem ferramentas disponíveis.

Métricas de avaliação. As métricas comuns incluem:

  • Classificação: Acurácia, precisão, recall, F1-score, AUC-ROC
  • Regressão: Erro quadrático médio, R-quadrado, erro absoluto médio
  • Classificação: nDCG, MAP, MRR

Avaliação alinhada ao negócio. Considere:

  • Custos de falsos positivos versus falsos negativos
  • Restrições operacionais (por exemplo, recursos computacionais, requisitos de latência)
  • Implicações regulatórias e éticas
  • Necessidades de interpretabilidade para as partes interessadas

Estrutura de valor esperado. Combine probabilidades com custos/benefícios para estimar o impacto geral nos negócios:
Valor Esperado = Σ (Probabilidade do Resultado * Valor do Resultado)

4. Dados textuais e não estruturados requerem técnicas especiais de pré-processamento

O texto é frequentemente referido como dados "não estruturados". Isso se refere ao fato de que o texto não possui a estrutura que normalmente esperamos para dados: tabelas de registros com campos que têm significados fixos.

Etapas de pré-processamento de texto:

  1. Tokenização: Dividir o texto em palavras/tokens individuais
  2. Normalização: Ajustar a caixa
  3. Remoção de pontuação e caracteres especiais
  4. Remoção de stop words (palavras comuns como "o", "e")
  5. Stemming/lemmatização: Reduzir palavras a suas formas básicas

Representação de texto:

  • Bag-of-words: Tratar o texto como um conjunto não ordenado de palavras
  • TF-IDF: Pesar palavras pela frequência e singularidade
  • Word embeddings: Representações vetoriais densas (por exemplo, Word2Vec)
  • N-grams: Capturar frases de múltiplas palavras

Técnicas avançadas:

  • Reconhecimento de entidades nomeadas: Identificar pessoas, organizações, locais
  • Modelagem de tópicos: Descobrir temas latentes em coleções de documentos
  • Análise de sentimentos: Determinar sentimentos positivos/negativos

5. Medidas de similaridade e distância são fundamentais para muitas tarefas de mineração de dados

Uma vez que um objeto pode ser representado como dados, podemos começar a falar de forma mais precisa sobre a similaridade entre objetos, ou alternativamente, a distância entre objetos.

Medidas de distância comuns:

  • Distância euclidiana: Distância em linha reta em espaço n-dimensional
  • Distância de Manhattan: Soma das diferenças absolutas
  • Similaridade cosseno: Ângulo entre vetores (comum para texto)
  • Similaridade de Jaccard: Sobreposição entre conjuntos
  • Distância de edição: Número de operações para transformar uma string em outra

Aplicações de similaridade:

  • Agrupamento: Agrupar objetos semelhantes
  • Métodos de vizinho mais próximo: Classificação/regressão com base em exemplos semelhantes
  • Sistemas de recomendação: Encontrar usuários ou itens semelhantes
  • Detecção de anomalias: Identificar outliers distantes de outros pontos

Escolhendo uma medida de distância. Considere:

  • Tipo de dado (numérico, categórico, texto, etc.)
  • Escala e distribuição das características
  • Eficiência computacional
  • Noções de similaridade específicas do domínio

6. Visualizar o desempenho do modelo é crucial para avaliação e comunicação

As partes interessadas fora da equipe de ciência de dados podem ter pouca paciência para detalhes e frequentemente desejarão uma visão mais intuitiva e de alto nível do desempenho do modelo.

Técnicas de visualização chave:

  • Curvas ROC: Taxa de verdadeiros positivos versus taxa de falsos positivos
  • Curvas de precisão-recall: Precisão versus recall em diferentes limiares
  • Gráficos de lift: Desempenho do modelo versus linha de base aleatória
  • Matrizes de confusão: Divisão de previsões corretas/incorretas
  • Curvas de aprendizado: Desempenho versus tamanho do conjunto de treinamento
  • Gráficos de importância de características: Impacto relativo de diferentes variáveis

Benefícios da visualização:

  • Comunicação intuitiva com partes interessadas não técnicas
  • Comparação de múltiplos modelos no mesmo gráfico
  • Identificação de pontos/limiares operacionais ideais
  • Diagnóstico de fraquezas e vieses do modelo

Melhores práticas:

  • Escolher visualizações apropriadas para a tarefa e o público
  • Usar esquemas de cores e rotulagem consistentes
  • Fornecer explicações e interpretações claras
  • Incluir desempenho de linha de base/aleatório para contexto

7. Raciocínio probabilístico e métodos bayesianos são ferramentas poderosas na ciência de dados

A Regra de Bayes decompõe a probabilidade posterior em três quantidades que vemos no lado direito.

Raciocínio bayesiano. Combina crenças anteriores com novas evidências para atualizar probabilidades:
P(H|E) = P(E|H) * P(H) / P(E)

  • P(H|E): Probabilidade posterior da hipótese dada a evidência
  • P(E|H): Verossimilhança da evidência dada a hipótese
  • P(H): Probabilidade anterior da hipótese
  • P(E): Probabilidade da evidência

Aplicações:

  • Classificação Naive Bayes
  • Redes bayesianas para raciocínio causal
  • Testes A/B e experimentação
  • Detecção de anomalias
  • Processamento de linguagem natural

Vantagens dos métodos bayesianos:

  • Incorporação de conhecimento prévio
  • Tratamento explícito da incerteza
  • Atualização de crenças de forma incremental com novos dados
  • Fornecimento de previsões probabilísticas

8. A preparação de dados e a engenharia de características são essenciais para modelagem eficaz

Muitas vezes, a qualidade da solução de mineração de dados depende de quão bem os analistas estruturam os problemas e elaboram as variáveis.

Etapas de preparação de dados:

  1. Limpeza de dados: Tratamento de valores ausentes, outliers, erros
  2. Integração de dados: Combinação de dados de múltiplas fontes
  3. Transformação de dados: Escalonamento, normalização, codificação de variáveis categóricas
  4. Redução de dados: Seleção de características, redução de dimensionalidade

Técnicas de engenharia de características:

  • Criação de termos de interação
  • Agrupamento de variáveis contínuas
  • Extração de características temporais (por exemplo, dia da semana, sazonalidade)
  • Transformações específicas do domínio (por exemplo, retornos logarítmicos em finanças)

Importância do conhecimento do domínio. A engenharia de características eficaz muitas vezes requer:

  • Compreensão do problema de negócios
  • Familiaridade com processos de geração de dados
  • Insights de especialistas no assunto
  • Experimentação e validação iterativas

9. As tarefas fundamentais de mineração de dados incluem classificação, regressão, agrupamento e detecção de anomalias

Apesar do grande número de algoritmos de mineração de dados específicos desenvolvidos ao longo dos anos, existem apenas alguns tipos fundamentalmente diferentes de tarefas que esses algoritmos abordam.

Tarefas principais de mineração de dados:

  • Classificação: Previsão de rótulos categóricos (por exemplo, detecção de spam)
  • Regressão: Previsão de valores contínuos (por exemplo, estimativa de preço de casas)
  • Agrupamento: Agrupamento de instâncias semelhantes (por exemplo, segmentação de clientes)
  • Detecção de anomalias: Identificação de padrões incomuns (por exemplo, detecção de fraudes)
  • Mineração de regras de associação: Descoberta de relacionamentos entre variáveis

Algoritmos comuns para cada tarefa:

  • Classificação: Árvores de decisão, regressão logística, máquinas de vetor de suporte
  • Regressão: Regressão linear, florestas aleatórias, boosting de gradiente
  • Agrupamento: K-means, agrupamento hierárquico, DBSCAN
  • Detecção de anomalias: Florestas de isolamento, autoencoders, SVM de uma classe
  • Regras de associação: Algoritmo Apriori, FP-growth

Escolhendo a tarefa certa. Considere:

  • Natureza da variável alvo (se houver)
  • Objetivos e restrições de negócios
  • Dados disponíveis e suas características
  • Requisitos de interpretabilidade

10. O processo de mineração de dados é iterativo e requer compreensão do negócio

A mineração de dados envolve um trade-off fundamental entre a complexidade do modelo e a possibilidade de overfitting.

Framework CRISP-DM:

  1. Compreensão do Negócio: Definir objetivos e requisitos
  2. Compreensão dos Dados: Coletar e explorar dados iniciais
  3. Preparação dos Dados: Limpar, integrar e formatar dados
  4. Modelagem: Selecionar e aplicar técnicas de modelagem
  5. Avaliação: Avaliar o desempenho do modelo em relação aos objetivos de negócios
  6. Implantação: Integrar modelos nos processos de negócios

Natureza iterativa. Projetos de mineração de dados frequentemente requerem:

  • Múltiplos ciclos pelo processo
  • Refinamento da formulação do problema com base em resultados iniciais
  • Coleta de dados ou características adicionais
  • Teste de abordagens de modelagem alternativas
  • Ajuste dos critérios de avaliação

Importância do contexto de negócios:

  • Alinhar esforços de ciência de dados com prioridades estratégicas
  • Traduzir resultados técnicos em impacto nos negócios
  • Gerenciar expectativas das partes interessadas
  • Garantir o uso ético e responsável de dados e modelos

Última atualização:

Avaliações

4.13 de 5
Média de 2k+ avaliações do Goodreads e da Amazon.

Data Science para Negócios recebe, em sua maioria, críticas positivas, com leitores elogiando sua abordagem prática e explicações claras dos conceitos de ciência de dados aplicados ao mundo dos negócios. Muitos consideram o livro valioso tanto para iniciantes quanto para profissionais experientes, destacando sua utilidade em conectar os aspectos técnicos e empresariais. Alguns avaliadores observam que a obra pode ser densa e desafiadora, mas, no geral, é vista como uma introdução abrangente à ciência de dados no contexto empresarial. Poucos críticos a consideram superficial ou excessivamente prolixa em determinadas seções.

Sobre o autor

Foster Provost é um renomado cientista de dados e educador. Ele é coautor de "Data Science for Business", um livro que se tornou um manual popular para a introdução de conceitos de ciência de dados a profissionais de negócios. O trabalho de Provost concentra-se em tornar tópicos complexos de ciência de dados acessíveis e aplicáveis a cenários empresariais do mundo real. Com vasta experiência tanto na academia quanto na indústria, ele contribui para o campo por meio de pesquisa, ensino e aplicações práticas. A abordagem de Provost enfatiza a importância de compreender os fundamentos da ciência de dados para uma tomada de decisão informada em contextos empresariais. Seu livro tem sido amplamente elogiado por sua clareza e insights práticos, ajudando a fechar a lacuna entre conceitos técnicos de ciência de dados e suas aplicações nos negócios.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Create a free account to unlock:
Requests: Request new book summaries
Bookmarks: Save your favorite books
History: Revisit books later
Ratings: Rate books & see your ratings
Unlock Unlimited Listening
🎧 Listen while you drive, walk, run errands, or do other activities
2.8x more books Listening Reading
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Jan 25,
cancel anytime before.
Compare Features Free Pro
Read full text summaries
Summaries are free to read for everyone
Listen to summaries
12,000+ hours of audio
Unlimited Bookmarks
Free users are limited to 10
Unlimited History
Free users are limited to 10
What our users say
30,000+ readers
"...I can 10x the number of books I can read..."
"...exceptionally accurate, engaging, and beautifully presented..."
"...better than any amazon review when I'm making a book-buying decision..."
Save 62%
Yearly
$119.88 $44.99/year
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Settings
Appearance
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →