Glosario

Regularización

Evite el sobreajuste y mejore la generalización del modelo con técnicas de regularización como L1, L2, abandono y parada temprana. Más información

La regularización es un conjunto de técnicas utilizadas en el aprendizaje automático (AM) para evitar un problema común conocido como sobreajuste. Cuando un modelo se adapta en exceso, aprende demasiado bien los datos de entrenamiento, incluidos el ruido y las fluctuaciones aleatorias, lo que afecta negativamente a su capacidad para generalizar y hacer predicciones precisas sobre datos nuevos que no se han visto. La regularización consiste en añadir una penalización por la complejidad del modelo a la función de pérdida, lo que disuade al modelo de aprender patrones demasiado complejos. Esto ayuda a crear un modelo más sencillo y generalizable que funciona mejor tanto en los datos de entrenamiento como en los de validación.

Técnicas habituales de regularización

Existen varias técnicas de regularización ampliamente utilizadas que ayudan a mejorar el rendimiento y la solidez del modelo:

Regularización L1 y L2: Son las formas más comunes de regularización. Añaden una penalización a la función de pérdida basada en el tamaño de los pesos del modelo. La regularización L1 (Lasso) tiende a reducir los pesos de las características menos importantes exactamente a cero, realizando así una selección de características. La regularización L2 (Ridge o Weight Decay) fuerza a los pesos a ser pequeños pero raramente cero. Se puede profundizar en las diferencias matemáticas en recursos como los apuntes del curso CS229 de Stanford.
Capa de abandono: Esta técnica es específica de las redes neuronales. Durante el entrenamiento, pone a cero aleatoriamente una fracción de las activaciones neuronales en cada paso de actualización. Esto evita que las neuronas se adapten demasiado y obliga a la red a aprender características más robustas. El concepto se introdujo en un influyente trabajo de investigación.
Aumento de datos: Al ampliar artificialmente el tamaño y la diversidad de los datos de entrenamiento, el aumento de datos ayuda al modelo a ser más invariable ante pequeños cambios. Entre las técnicas más comunes se encuentran la rotación, el recorte, el escalado y el cambio de color de las imágenes. Ultralytics ofrece métodos integrados de aumento de datos YOLO para mejorar la robustez del modelo.
Detención temprana: Se trata de un método práctico en el que el rendimiento del modelo en un conjunto de validación se controla durante el entrenamiento. El proceso de entrenamiento se detiene cuando el rendimiento de validación deja de mejorar, evitando que el modelo comience a sobreajustarse en épocas posteriores. En la documentación de PyTorch hay disponible una guía práctica sobre la aplicación de la parada anticipada.

Aplicaciones reales

La regularización es fundamental para desarrollar modelos de aprendizaje profundo (deep learning, DL) eficaces en diversos campos.

Visión por ordenador: En modelos de detección de objetos como Ultralytics YOLO, la regularización es crucial para generalizar a partir de conjuntos de datos como COCO a aplicaciones del mundo real. Por ejemplo, en las soluciones de IA para automoción, la regularización L2 y el abandono ayudan a que un detector de señales de tráfico funcione de forma fiable en condiciones meteorológicas y de iluminación variadas, evitando que memorice los ejemplos específicos vistos durante el entrenamiento.
Procesamiento del lenguaje natural (PLN): Los grandes modelos lingüísticos (LL M) son propensos al sobreajuste debido a su enorme número de parámetros. En aplicaciones como la traducción automática, el abandono se utiliza en las arquitecturas Transformer para garantizar que el modelo aprenda las reglas gramaticales y las relaciones semánticas en lugar de limitarse a memorizar pares de frases específicas a partir de sus datos de entrenamiento.