Glosario

Regularización

Evita el sobreajuste y mejora la generalización del modelo con técnicas de regularización como L1, L2, abandono y parada temprana. Más información

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La regularización es un conjunto de técnicas utilizadas en el Aprendizaje Automático (AM ) para evitar un problema común llamado sobreajuste. El sobreajuste se produce cuando un modelo aprende demasiado bien los datos de entrenamiento, incluyendo su ruido y fluctuaciones aleatorias, lo que repercute negativamente en el rendimiento del modelo sobre datos nuevos no vistos. Los métodos de regularización introducen una penalización por la complejidad del modelo, animando a éste a aprender patrones más sencillos que se generalicen mejor a los nuevos datos. Esto es crucial para construir modelos de IA robustos, incluidos los utilizados en la visión por ordenador (VC) y el procesamiento del lenguaje natural (PLN).

Importancia en el aprendizaje automático

La regularización es fundamental para entrenar modelos ML fiables, sobre todo los complejos, como los modelos de aprendizaje profundo (DL) y las redes neuronales (NN). Sin regularización, estos modelos pueden memorizar fácilmente los datos de entrenamiento en lugar de aprender los patrones subyacentes. Esto conduce a una alta precisión en el conjunto de entrenamiento, pero a un rendimiento pobre en los datos de validación o en las entradas del mundo real. Al añadir un término de penalización a la función de pérdida, la regularización ayuda a controlar la magnitud de los pesos del modelo, simplificando eficazmente el modelo y mejorando su capacidad de generalización. Este equilibrio entre ajustarse a los datos y mantener la simplicidad se discute a menudo en el contexto del equilibrio sesgo-varianza. Para modelos como Ultralytics YOLOla regularización contribuye a lograr una gran precisión en tareas exigentes como la detección de objetos en tiempo real.

Técnicas comunes de regularización

Se utilizan ampliamente varias técnicas de regularización:

  • Regularización L1 (Lasso): Añade una penalización igual al valor absoluto de la magnitud de los coeficientes. Esto puede llevar a que algunos pesos se conviertan exactamente en cero, realizando eficazmente la selección de características. Más información sobre la Regresión Lasso.
  • Regularización L2 (Ridge): Añade una penalización igual al cuadrado de la magnitud de los coeficientes. Reduce los pesos hacia cero, pero rara vez los hace exactamente cero. Más información sobre la regresión Ridge.
  • Capa de abandono: Utilizada principalmente en redes neuronales, la deserción pone a cero aleatoriamente una fracción de las salidas de las neuronas durante el entrenamiento. Esto evita que las neuronas se coadapten demasiado y obliga a la red a aprender características más robustas. Para más detalles, consulta el artículo original sobre el Dropout.
  • Detención anticipada: Controla el rendimiento del modelo en un conjunto de validación durante el entrenamiento y detiene el proceso de entrenamiento cuando el rendimiento deja de mejorar, evitando que el modelo se ajuste en exceso a medida que avanza el entrenamiento. Se trata de una práctica habitual en los consejos para el entrenamiento de modelos.
  • Aumento de datos: Aumenta la diversidad de los datos de entrenamiento aplicando transformaciones aleatorias (como rotación, escalado, recorte) a los datos existentes. Esto ayuda a que el modelo sea más invariable a dichas variaciones. Explora las técnicas de aumento de datos.

Diferencias con conceptos afines

La regularización es distinta de otros conceptos importantes del ML:

  • Algoritmo de optimización: Algoritmos como el Descenso Gradiente o el Optimizador Adam se utilizan para minimizar la función de pérdida y actualizar los parámetros del modelo durante el entrenamiento. La regularización modifica esta función de pérdida añadiendo un término de penalización, guiando el proceso de optimización hacia modelos más simples, pero no es el algoritmo de optimización en sí.
  • Ajuste de hiperparámetros: Se trata de encontrar los hiperparámetros óptimos (por ejemplo, velocidad de aprendizaje, número de capas) para un modelo, a menudo utilizando técnicas como la búsqueda en cuadrícula o métodos automatizados disponibles en plataformas como Ultralytics HUB. La fuerza de la regularización (por ejemplo, el coeficiente de penalización en L1/L2) es en sí misma un hiperparámetro que hay que ajustar, pero la regularización es la técnica aplicada, mientras que el ajuste de hiperparámetros es el proceso de establecer su fuerza junto con otros parámetros.

Aplicaciones en el mundo real

Las técnicas de regularización son esenciales para el éxito práctico de muchas aplicaciones de IA:

Ejemplo 1: Clasificación de imágenes

En la clasificación de imágenes, las redes neuronales profundas como las CNN pueden tener millones de parámetros. Sin regularización (como Dropout o L2), estos modelos pueden sobreajustarse fácilmente a conjuntos de datos como ImageNet. La regularización ayuda a garantizar que el modelo aprenda características visuales generales (bordes, texturas, formas) en lugar de memorizar imágenes de entrenamiento específicas, lo que conduce a una mayor precisión de clasificación en nuevas imágenes encontradas en aplicaciones que van desde el análisis de imágenes médicas a la conducción autónoma. Mira cómo se aborda el sobreajuste en los proyectos de visión por ordenador.

Ejemplo 2: Procesamiento del lenguaje natural

En tareas de PNL como el análisis de sentimientos o la traducción automática, los modelos como los Transformadores también pueden sufrir de sobreajuste, especialmente con datos de entrenamiento limitados. Se aplican técnicas de regularización, como el abandono y el decaimiento del peso (L2), para evitar que el modelo dependa demasiado de palabras o frases específicas presentes sólo en el corpus de entrenamiento. Esto mejora la capacidad del modelo para comprender y generar lenguaje humano de forma más eficaz en escenarios del mundo real, como chatbots o herramientas de resumen de contenidos.

Leer todo