Puntos clave
1. El aprendizaje profundo aprende de los datos minimizando una función de pérdida
Entonces, entrenar el modelo consiste en calcular un valor w∗ que minimice ℒ(w∗).
Aprender de los datos. El aprendizaje profundo, una rama del aprendizaje automático, se centra en modelos que aprenden representaciones directamente a partir de los datos. En lugar de programar reglas manualmente, recopilamos un conjunto de datos con entradas y salidas deseadas, y entrenamos un modelo paramétrico para aproximar la relación entre ambos. El comportamiento del modelo se modula mediante parámetros entrenables, comúnmente llamados pesos.
Formalizando la calidad. El objetivo es encontrar valores para los parámetros que conviertan al modelo en un buen predictor para datos no vistos. Esto se formaliza mediante una función de pérdida, ℒ(w), que mide qué tan mal se desempeña el modelo en los datos de entrenamiento para un conjunto dado de parámetros w
. Las pérdidas comunes incluyen el error cuadrático medio para regresión y la entropía cruzada para clasificación.
Entrenar es optimizar. La tarea central del entrenamiento es hallar los parámetros óptimos w*
que minimicen esta función de pérdida. Este proceso de optimización es fundamental en el aprendizaje profundo, y la elección de la arquitectura del modelo y las técnicas de entrenamiento están fuertemente influenciadas por la necesidad de hacer esta minimización eficiente y efectiva, especialmente para datos complejos y de alta dimensión.
2. La computación eficiente en hardware especializado es crucial
Las Unidades de Procesamiento Gráfico (GPUs) han sido fundamentales en el éxito del campo al permitir que estos cálculos se ejecuten en hardware accesible.
Aceleración por hardware. El aprendizaje profundo implica cálculos masivos, principalmente operaciones de álgebra lineal sobre grandes conjuntos de datos. La arquitectura paralela de las GPUs, originalmente diseñadas para gráficos, resultó excepcionalmente adecuada para estas tareas, haciendo posible el aprendizaje profundo a gran escala en hardware accesible. Chips especializados como los TPUs han optimizado aún más este proceso.
La jerarquía de memoria importa. La computación eficiente en GPUs requiere una gestión cuidadosa de los datos. El cuello de botella suele ser la transferencia de datos entre la memoria de la CPU y la GPU, así como dentro de la propia jerarquía de memoria de la GPU. Procesar datos en lotes que quepan en la memoria rápida de la GPU minimiza estas transferencias, permitiendo el cálculo paralelo entre muestras.
Los tensores son clave. Los datos, parámetros del modelo y resultados intermedios se organizan como tensores, arreglos multidimensionales. Los frameworks de aprendizaje profundo manipulan tensores de forma eficiente, abstraen detalles de memoria de bajo nivel y permiten operaciones complejas como reestructuración y extracción sin copias costosas. Este enfoque basado en tensores es fundamental para lograr un alto rendimiento computacional.
3. El descenso por gradiente y la retropropagación impulsan el entrenamiento
La combinación de este cálculo con el procedimiento de descenso por gradiente se llama retropropagación.
Minimizar la pérdida. Dado que la función de pérdida para modelos profundos suele ser compleja y sin solución cerrada simple, el descenso por gradiente es el algoritmo de optimización principal. Comienza con parámetros aleatorios y los actualiza iterativamente dando pequeños pasos en la dirección opuesta al gradiente de la pérdida, que es la dirección de mayor descenso.
Actualizaciones estocásticas. Calcular el gradiente exacto sobre todo el conjunto de datos es computacionalmente prohibitivo. El Descenso por Gradiente Estocástico (SGD) usa mini-lotes de datos para calcular una estimación ruidosa pero no sesgada del gradiente, permitiendo muchas más actualizaciones de parámetros con el mismo costo computacional. Este enfoque de mini-lotes es práctica estándar, a menudo mejorado con optimizadores como Adam.
La retropropagación calcula gradientes. La retropropagación es el algoritmo que calcula eficientemente el gradiente de la pérdida respecto a todos los parámetros del modelo. Funciona aplicando la regla de la cadena del cálculo diferencial hacia atrás a través de las capas de la red, calculando gradientes capa por capa. Esta pasada hacia atrás, combinada con la pasada hacia adelante que calcula la salida del modelo, forma el núcleo del ciclo computacional del entrenamiento en aprendizaje profundo.
4. La profundidad y la escala desbloquean capacidades poderosas
Existe una acumulación de resultados empíricos que muestran que el rendimiento... mejora con la cantidad de datos según leyes de escala notables...
El valor de la profundidad. Los modelos profundos, compuestos por muchas capas, pueden aprender representaciones más complejas y jerárquicas que los superficiales. Aunque teóricamente una red de una sola capa puede aproximar cualquier función, las arquitecturas profundas han demostrado empíricamente alcanzar un rendimiento de vanguardia en diversos dominios, requiriendo decenas o cientos de capas.
Leyes de escala. Un hallazgo clave es que el rendimiento del modelo suele mejorar de forma predecible con el aumento de escala: más datos, más parámetros y más cómputo. Esto ha impulsado la tendencia hacia modelos cada vez más masivos, entrenados con conjuntos de datos enormes, conduciendo a avances como los Grandes Modelos de Lenguaje.
Beneficios de la escala. Los modelos grandes, a pesar de su inmensa capacidad, suelen generalizar bien, desafiando nociones tradicionales de sobreajuste. Su escala, combinada con técnicas de entrenamiento distribuido como SGD en conjuntos masivos, les permite capturar patrones y conocimientos intrincados que modelos más pequeños no pueden, aunque a un costo computacional y financiero significativo.
5. Los modelos profundos se construyen a partir de capas reutilizables
Llamamos capas a operaciones tensoriales complejas estándar que han sido diseñadas e identificadas empíricamente como genéricas y eficientes.
Componentes modulares. Los modelos profundos se construyen apilando o conectando diversos tipos de capas, que son operaciones tensoriales parametrizadas y reutilizables. Esta modularidad simplifica el diseño del modelo y permite crear arquitecturas complejas a partir de bloques bien entendidos.
Tipos principales de capas:
- Lineales/Completamente conectadas: Realizan transformaciones afines (multiplicación matricial más sesgo).
- Convolucionales: Aplican filtros afines localizados y compartidos a lo largo de dimensiones espaciales o temporales, capturando patrones locales y permitiendo invariancia a traslaciones.
- Funciones de activación: Introducen no linealidad (por ejemplo, ReLU, GELU), esencial para aprender mapeos complejos.
- Pooling: Reducen el tamaño espacial resumiendo regiones locales (por ejemplo, max pooling).
- Capas de normalización: Estabilizan el entrenamiento normalizando estadísticas de activación (por ejemplo, Batch Norm, Layer Norm).
- Dropout: Regularizan al poner aleatoriamente activaciones a cero durante el entrenamiento.
- Conexiones residuales: Permiten que señales salten capas, facilitando el flujo de gradientes y el entrenamiento de redes muy profundas.
Ingeniería para optimización. Muchos diseños de capas, como las conexiones residuales y las capas de normalización, se desarrollaron específicamente para mitigar desafíos del entrenamiento como el problema del gradiente que desaparece, desplazando el enfoque de la optimización genérica hacia el diseño de modelos que son intrínsecamente más fáciles de optimizar.
6. Los mecanismos de atención conectan información distante
Las capas de atención abordan específicamente este problema calculando una puntuación de atención para cada componente del tensor resultante respecto a cada componente del tensor de entrada, sin restricciones de localidad...
Más allá de la localidad. Mientras que las capas convolucionales son excelentes para procesar información local, muchas tareas requieren integrar información de partes distantes de una señal, como entender dependencias entre palabras alejadas en una oración o relacionar objetos en diferentes partes de una imagen. Las capas de atención proporcionan un mecanismo para esta interacción global.
Consulta, Clave, Valor. El operador central de atención calcula puntuaciones que representan la relevancia de cada elemento "consulta" respecto a cada elemento "clave", típicamente usando productos punto. Estas puntuaciones se usan luego para calcular un promedio ponderado de los elementos "valor", permitiendo que cada consulta "atienda" a la información relevante a lo largo de toda la secuencia de entrada.
Atención multi-cabeza. La capa de Atención Multi-Cabeza mejora esto realizando múltiples cálculos de atención en paralelo ("cabezas") con diferentes transformaciones lineales aprendidas para consultas, claves y valores. Los resultados de estas cabezas se concatenan y combinan linealmente, permitiendo al modelo atender simultáneamente a información desde diferentes subespacios de representación en distintas posiciones. Este mecanismo es piedra angular de arquitecturas modernas como el Transformer.
7. Arquitecturas clave abordan diferentes estructuras de datos
La arquitectura elegida para tales tareas, que ha sido fundamental en avances recientes del aprendizaje profundo, es el Transformer...
MLPs para datos simples. El Perceptrón Multicapa (MLP), una pila de capas completamente conectadas con activaciones, es la arquitectura profunda más simple. Aunque teóricamente son aproximadores universales, son poco prácticos para datos estructurados de alta dimensión debido a su exceso de parámetros y falta de sesgo inductivo.
ConvNets para datos en rejilla. Las Redes Convolucionales (ConvNets) son el estándar para datos en forma de rejilla, como imágenes. Usan capas convolucionales y de pooling para construir representaciones jerárquicas e invariantes a traslaciones, culminando a menudo en capas completamente conectadas para tareas como clasificación. Arquitecturas como LeNet y ResNet (que incorpora conexiones residuales para profundidad) son ejemplos emblemáticos.
Transformers para secuencias. Los Transformers, basados principalmente en capas de atención, se han vuelto dominantes para datos secuenciales como texto y cada vez más para imágenes. Su capacidad para modelar dependencias a largo alcance globalmente, combinada con codificaciones posicionales para conservar el orden, los hace muy efectivos. La estructura codificador-decodificador para traducción y el GPT solo decodificador para generación son variantes clave.
8. El aprendizaje profundo destaca en tareas de predicción
Una primera categoría de aplicaciones... requiere predecir un valor desconocido a partir de una señal disponible.
Mapear entrada a salida. Las tareas de predicción implican usar un modelo profundo para estimar un valor objetivo o categoría basado en una señal de entrada. Este es el esquema clásico de aprendizaje supervisado, donde el modelo se entrena con pares de entradas y sus correspondientes verdades de terreno.
Aplicaciones diversas:
- Clasificación de imágenes: Asignar una etiqueta única a una imagen (por ejemplo, ResNets, ViT).
- Detección de objetos: Identificar objetos y sus cajas delimitadoras en una imagen (por ejemplo, SSD, usando ConvNets como base).
- Segmentación semántica: Clasificar cada píxel en una imagen (a menudo usa ConvNets con reducción y aumento de escala y conexiones residuales).
- Reconocimiento de voz: Convertir señales de audio en secuencias de texto (por ejemplo, modelos basados en Transformer como Whisper).
- Aprendizaje por refuerzo: Aprender acciones óptimas en un entorno para maximizar recompensa (por ejemplo, DQN usando ConvNets para estimar valores estado-acción).
Aprovechar el preentrenamiento. Para tareas con pocos datos etiquetados, los modelos preentrenados en grandes conjuntos relacionados (como clasificación de imágenes o modelado de lenguaje) pueden ajustarse finamente, mejorando significativamente el rendimiento al aprovechar representaciones generales aprendidas.
9. El aprendizaje profundo permite síntesis compleja
Una segunda categoría de aplicaciones distinta a la predicción es la síntesis.
Modelar distribuciones de datos. Las tareas de síntesis implican generar nuevas muestras de datos que se parezcan a un conjunto de entrenamiento. Esto requiere que el modelo aprenda la distribución de probabilidad subyacente de los datos, no solo mapear entradas a salidas.
Generación de texto. Los modelos autorregresivos, especialmente los grandes basados en Transformer como GPT, tienen gran éxito generando texto similar al humano. Entrenados para predecir el siguiente token en una secuencia, aprenden estructuras lingüísticas complejas y conocimiento del mundo, permitiendo generación coherente y contextual, incluyendo capacidades de aprendizaje con pocos ejemplos.
Generación de imágenes. Los modelos de difusión son un enfoque reciente poderoso para la síntesis de imágenes. Aprenden a revertir un proceso gradual de degradación (como añadir ruido) que transforma los datos en una distribución simple. Partiendo de ruido aleatorio y aplicando iterativamente pasos de denoising aprendidos, pueden generar imágenes de alta calidad y diversidad, que a menudo pueden condicionarse con descripciones de texto u otras entradas.
10. El campo va más allá de los modelos centrales y el aprendizaje supervisado
Tales modelos constituyen una categoría dentro de un conjunto más amplio de métodos bajo el nombre de aprendizaje auto-supervisado, que intentan aprovechar conjuntos de datos no etiquetados.
Más allá de las arquitecturas estándar. Aunque MLPs, ConvNets y Transformers son prominentes, existen otras arquitecturas para distintos tipos de datos, como las Redes Neuronales Recurrentes (RNNs) para secuencias (históricamente importantes) y las Redes Neuronales de Grafos (GNNs) para datos no en rejilla como redes sociales o moléculas.
Aprender representaciones. Los autoencoders, incluyendo los Autoencoders Variacionales (VAEs), se enfocan en aprender representaciones latentes comprimidas y significativas de los datos, útiles para reducción de dimensionalidad o modelado generativo. Las Redes Generativas Antagónicas (GANs) usan un proceso competitivo entre un generador y un discriminador para producir muestras realistas.
Aprendizaje auto-supervisado. Una tendencia importante es aprovechar grandes cantidades de datos no etiquetados mediante aprendizaje auto-supervisado. Los modelos se entrenan en tareas auxiliares donde la "etiqueta" se deriva automáticamente de los propios datos (por ejemplo, predecir partes enmascaradas de una entrada). Este preentrenamiento aprende representaciones generales poderosas que luego pueden ajustarse finamente en conjuntos más pequeños etiquetados para tareas específicas, reduciendo la dependencia de costosas anotaciones humanas.
Última actualización:
Reseñas
El Pequeño Libro del Aprendizaje Profundo ha recibido en su mayoría críticas positivas, elogiado por su resumen conciso de los conceptos del aprendizaje profundo. Los lectores valoran su formato compacto y la densidad de información, aunque algunos lo consideran demasiado avanzado para principiantes. El libro aborda temas fundamentales, redes neuronales y arquitecturas de modelos, con diagramas claros. Mientras que algunos lectores encuentran dificultades con el contenido matemático, muchos lo consideran una referencia valiosa. La versión en PDF gratuita es destacada como una oferta generosa. Algunos critican su brevedad, sugiriendo que es mejor complementarlo con otros recursos para lograr una comprensión más completa.
Similar Books









