Facebook Pixel
Searching...
Español
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Python Data Science Handbook

Python Data Science Handbook

Essential Tools for Working with Data
por Jake Vanderplas 2016 487 páginas
4.32
500+ calificaciones
Escuchar

Puntos clave

1. Fundamentos del aprendizaje automático: Aprendizaje supervisado vs. no supervisado

El aprendizaje automático es donde estas habilidades computacionales y algorítmicas de la ciencia de datos se encuentran con el pensamiento estadístico de la ciencia de datos, y el resultado es una colección de enfoques para la inferencia y la exploración de datos que no se centran tanto en la teoría efectiva como en el cálculo efectivo.

El aprendizaje supervisado implica modelar las relaciones entre las características de entrada y las salidas etiquetadas. Incluye tareas de clasificación, donde el objetivo es predecir categorías discretas, y tareas de regresión, que buscan predecir cantidades continuas. Ejemplos incluyen predecir precios de viviendas o clasificar correos electrónicos como spam.

El aprendizaje no supervisado se centra en descubrir patrones en datos no etiquetados. Las técnicas clave incluyen:

  • Agrupamiento: Agrupar puntos de datos similares
  • Reducción de dimensionalidad: Simplificar datos complejos preservando la información esencial

Estos conceptos fundamentales forman la columna vertebral del aprendizaje automático, proporcionando un marco para abordar diversos desafíos de análisis de datos.

2. Scikit-Learn: Una poderosa biblioteca de Python para el aprendizaje automático

Scikit-Learn proporciona una amplia variedad de herramientas eficientes para el aprendizaje automático y el modelado estadístico, incluyendo clasificación, regresión, agrupamiento y reducción de dimensionalidad a través de una interfaz consistente en Python.

El diseño de API consistente hace que Scikit-Learn sea fácil de usar y eficiente. La biblioteca sigue un patrón uniforme para todos sus modelos:

  1. Elegir una clase e importarla
  2. Instanciar la clase con los hiperparámetros deseados
  3. Ajustar el modelo a tus datos
  4. Aplicar el modelo a nuevos datos

Este flujo de trabajo estandarizado permite a los usuarios cambiar fácilmente entre diferentes algoritmos sin cambios significativos en el código. Scikit-Learn también se integra perfectamente con otras bibliotecas científicas de Python como NumPy y Pandas, convirtiéndola en una herramienta versátil para proyectos de ciencia de datos.

3. Representación y preprocesamiento de datos en Scikit-Learn

La mejor manera de pensar en los datos dentro de Scikit-Learn es en términos de tablas de datos.

El formato adecuado de los datos es crucial para un aprendizaje automático efectivo. Scikit-Learn espera los datos en un formato específico:

  • Matriz de características (X): Estructura similar a un array 2D con forma [n_samples, n_features]
  • Array objetivo (y): Array 1D con longitud n_samples

Los pasos de preprocesamiento a menudo incluyen:

  • Manejo de datos faltantes mediante imputación
  • Escalado de características a un rango común
  • Codificación de variables categóricas
  • Selección de características o reducción de dimensionalidad

Scikit-Learn proporciona varias herramientas para estas tareas de preprocesamiento, como SimpleImputer para datos faltantes y StandardScaler para el escalado de características. Un preprocesamiento adecuado asegura que los algoritmos funcionen de manera óptima y produzcan resultados confiables.

4. Técnicas de selección y validación de modelos

Un modelo es tan bueno como sus predicciones.

La validación cruzada es una técnica crítica para evaluar el rendimiento del modelo y prevenir el sobreajuste. Involucra:

  1. Dividir los datos en conjuntos de entrenamiento y prueba
  2. Entrenar el modelo con los datos de entrenamiento
  3. Evaluar el rendimiento en los datos de prueba

Scikit-Learn ofrece herramientas como train_test_split para divisiones simples y cross_val_score para validación cruzada más avanzada de k-fold. Estos métodos ayudan en:

  • Estimar el rendimiento del modelo en datos no vistos
  • Comparar diferentes modelos o hiperparámetros
  • Detectar sobreajuste o subajuste

Además, técnicas como las curvas de aprendizaje y las curvas de validación ayudan a visualizar el rendimiento del modelo en diferentes tamaños de conjuntos de entrenamiento y valores de hiperparámetros, guiando el proceso de selección del modelo.

5. Ingeniería de características: Transformar datos brutos en entradas útiles

Uno de los pasos más importantes al usar el aprendizaje automático en la práctica es la ingeniería de características, es decir, tomar la información que tienes sobre tu problema y convertirla en números que puedas usar para construir tu matriz de características.

La ingeniería de características efectiva puede mejorar significativamente el rendimiento del modelo. Las técnicas comunes incluyen:

  • Crear características polinómicas para capturar relaciones no lineales
  • Agrupar variables continuas en categorías discretas
  • Codificar variables categóricas usando codificación one-hot o codificación de objetivo
  • Extracción de características de texto usando técnicas como TF-IDF
  • Combinar características existentes para crear nuevas y significativas

Scikit-Learn proporciona varias herramientas para la ingeniería de características, como PolynomialFeatures para crear características polinómicas e interactivas, y CountVectorizer o TfidfVectorizer para datos de texto. El arte de la ingeniería de características a menudo requiere conocimiento del dominio y creatividad para extraer la información más relevante de los datos brutos.

6. Naive Bayes: Algoritmos de clasificación rápidos y simples

Los modelos de Naive Bayes son un grupo de algoritmos de clasificación extremadamente rápidos y simples que a menudo son adecuados para conjuntos de datos de muy alta dimensionalidad.

El enfoque probabilístico subyace a los clasificadores de Naive Bayes, que se basan en el teorema de Bayes. Las características clave incluyen:

  • Tiempos de entrenamiento y predicción rápidos
  • Buen rendimiento con datos de alta dimensionalidad
  • Capacidad para manejar tanto datos continuos como discretos

Tipos de clasificadores de Naive Bayes:

  1. Naive Bayes Gaussiano: Asume que las características siguen una distribución normal
  2. Naive Bayes Multinomial: Adecuado para datos discretos, a menudo usado en clasificación de texto
  3. Naive Bayes Bernoulli: Usado para vectores de características binarias

A pesar de su simplicidad, los clasificadores de Naive Bayes a menudo funcionan sorprendentemente bien, especialmente en tareas de clasificación de texto. Sirven como excelentes puntos de referencia y son particularmente útiles cuando los recursos computacionales son limitados.

7. Regresión lineal: Base para el modelado predictivo

Los modelos de regresión lineal son un buen punto de partida para las tareas de regresión.

La interpretabilidad y simplicidad hacen que la regresión lineal sea una opción popular para muchas tareas de modelado predictivo. Los conceptos clave incluyen:

  • Mínimos cuadrados ordinarios (OLS) para encontrar la línea de mejor ajuste
  • Regresión lineal múltiple para manejar múltiples características de entrada
  • Técnicas de regularización como Lasso y Ridge para prevenir el sobreajuste

La regresión lineal sirve como un bloque de construcción para modelos más complejos y ofrece:

  • Fácil interpretación de la importancia de las características
  • Tiempos de entrenamiento y predicción rápidos
  • Una base para entender técnicas de regresión más avanzadas

Aunque limitada en la captura de relaciones no lineales, la regresión lineal puede extenderse a través de características polinómicas o regresión de funciones base para modelar patrones más complejos en los datos.

Última actualización:

Reseñas

4.32 de 5
Promedio de 500+ calificaciones de Goodreads y Amazon.

Python Data Science Handbook recibe en su mayoría críticas positivas, elogiado por su enfoque práctico y explicaciones claras de herramientas esenciales como NumPy, Pandas y Matplotlib. Los lectores aprecian su profundidad en la manipulación y visualización de datos. El capítulo de aprendizaje automático se considera una buena introducción, aunque algunos lo encuentran falto de profundidad. El libro se recomienda para principiantes y como referencia para usuarios experimentados. Algunos críticos señalan que ciertas partes pueden estar desactualizadas, y unos pocos critican la falta de ejercicios y ejemplos del mundo real.

Sobre el autor

Jake VanderPlas es un científico de datos y astrónomo conocido por sus contribuciones al ecosistema de computación científica en Python. Es autor del "Python Data Science Handbook" y ha contribuido a varias bibliotecas de Python de código abierto, incluyendo Scikit-learn. VanderPlas tiene formación en astrofísica y ha trabajado como investigador y educador en el campo de la ciencia de datos. Es reconocido por su habilidad para explicar conceptos técnicos complejos de manera accesible, lo que lo convierte en un orador popular en conferencias y talleres. Su trabajo se centra en cerrar la brecha entre la investigación académica y las aplicaciones prácticas de la ciencia de datos, particularmente en las áreas de aprendizaje automático y visualización de datos.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Create a free account to unlock:
Bookmarks – save your favorite books
History – revisit books later
Ratings – rate books & see your ratings
Unlock unlimited listening
Your first week's on us!
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Dec 25,
cancel anytime before.
Compare Features Free Pro
Read full text summaries
Summaries are free to read for everyone
Listen to summaries
12,000+ hours of audio
Unlimited Bookmarks
Free users are limited to 10
Unlimited History
Free users are limited to 10
What our users say
30,000+ readers
“...I can 10x the number of books I can read...”
“...exceptionally accurate, engaging, and beautifully presented...”
“...better than any amazon review when I'm making a book-buying decision...”
Save 62%
Yearly
$119.88 $44.99/yr
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Settings
Appearance
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →