Regularización
Evite el sobreajuste y mejore la generalización del modelo con técnicas de regularización como L1, L2, abandono y parada temprana. Más información
La regularización es un conjunto de técnicas utilizadas en el aprendizaje automático (AM) para evitar un problema común conocido como sobreajuste. Cuando un modelo se adapta en exceso, aprende demasiado bien los datos de entrenamiento, incluidos el ruido y las fluctuaciones aleatorias, lo que afecta negativamente a su capacidad para generalizar y hacer predicciones precisas sobre datos nuevos que no se han visto. La regularización consiste en añadir una penalización por la complejidad del modelo a la función de pérdida, lo que disuade al modelo de aprender patrones demasiado complejos. Esto ayuda a crear un modelo más sencillo y generalizable que funciona mejor tanto en los datos de entrenamiento como en los de validación.
Técnicas habituales de regularización
Existen varias técnicas de regularización ampliamente utilizadas que ayudan a mejorar el rendimiento y la solidez del modelo:
- Regularización L1 y L2: Son las formas más comunes de regularización. Añaden una penalización a la función de pérdida basada en el tamaño de los pesos del modelo. La regularización L1 (Lasso) tiende a reducir los pesos de las características menos importantes exactamente a cero, realizando así una selección de características. La regularización L2 (Ridge o Weight Decay) fuerza a los pesos a ser pequeños pero raramente cero. Se puede profundizar en las diferencias matemáticas en recursos como los apuntes del curso CS229 de Stanford.
- Capa de abandono: Esta técnica es específica de las redes neuronales. Durante el entrenamiento, pone a cero aleatoriamente una fracción de las activaciones neuronales en cada paso de actualización. Esto evita que las neuronas se adapten demasiado y obliga a la red a aprender características más robustas. El concepto se introdujo en un influyente trabajo de investigación.
- Aumento de datos: Al ampliar artificialmente el tamaño y la diversidad de los datos de entrenamiento, el aumento de datos ayuda al modelo a ser más invariable ante pequeños cambios. Entre las técnicas más comunes se encuentran la rotación, el recorte, el escalado y el cambio de color de las imágenes. Ultralytics ofrece métodos integrados de aumento de datos YOLO para mejorar la robustez del modelo.
- Detención temprana: Se trata de un método práctico en el que el rendimiento del modelo en un conjunto de validación se controla durante el entrenamiento. El proceso de entrenamiento se detiene cuando el rendimiento de validación deja de mejorar, evitando que el modelo comience a sobreajustarse en épocas posteriores. En la documentación de PyTorch hay disponible una guía práctica sobre la aplicación de la parada anticipada.
Aplicaciones reales
La regularización es fundamental para desarrollar modelos de aprendizaje profundo (deep learning, DL) eficaces en diversos campos.
- Visión por ordenador: En modelos de detección de objetos como Ultralytics YOLO, la regularización es crucial para generalizar a partir de conjuntos de datos como COCO a aplicaciones del mundo real. Por ejemplo, en las soluciones de IA para automoción, la regularización L2 y el abandono ayudan a que un detector de señales de tráfico funcione de forma fiable en condiciones meteorológicas y de iluminación variadas, evitando que memorice los ejemplos específicos vistos durante el entrenamiento.
- Procesamiento del lenguaje natural (PLN): Los grandes modelos lingüísticos (LL M) son propensos al sobreajuste debido a su enorme número de parámetros. En aplicaciones como la traducción automática, el abandono se utiliza en las arquitecturas Transformer para garantizar que el modelo aprenda las reglas gramaticales y las relaciones semánticas en lugar de limitarse a memorizar pares de frases específicas a partir de sus datos de entrenamiento.
Regularización frente a otros conceptos
Es importante diferenciar la regularización de otros conceptos relacionados en ML:
- Regularización frente a normalización: La normalización es una técnica de preprocesamiento de datos que escala las características de entrada a un rango estándar (por ejemplo, de 0 a 1). Garantiza que ninguna característica domine el proceso de aprendizaje debido a su escala. La regularización, por el contrario, es una técnica que limita la complejidad del modelo durante el entrenamiento para evitar el sobreajuste. Aunque ambas mejoran el rendimiento del modelo, la normalización se centra en los datos, mientras que la regularización se centra en el propio modelo. La normalización por lotes es una técnica de normalización por capas que también proporciona un ligero efecto de regularización.
- Regularización frente a ajuste de hiperparámetros: Las técnicas de regularización tienen sus propios hiperparámetros, como la fuerza de regularización (lambda) en L1/L2 o la tasa de abandono. El ajuste de hiperparámetros es el proceso de encontrar los valores óptimos para estos ajustes, a menudo automatizado con herramientas como la clase Ultralytics Tuner. En resumen, se utiliza el ajuste de hiperparámetros para encontrar la mejor manera de aplicar la regularización. Plataformas como Ultralytics HUB pueden ayudar a gestionar los experimentos necesarios para este proceso.