Descubra cómo el suavizado de etiquetas evita el sobreajuste y mejora la generalización del modelo. Descubra cómo implementar esta técnica con Ultralytics para obtener mejores resultados.
El suavizado de etiquetas es una técnica de regularización ampliamente utilizada en el aprendizaje automático para mejorar la generalización de los modelos y evitar el sobreajuste. Al entrenar redes neuronales, el objetivo suele ser minimizar el error entre las predicciones y la verdad fundamental. Sin embargo, si un modelo se vuelve demasiado confiado en sus predicciones, asignando una probabilidad cercana al 100 % a una sola clase, a menudo comienza a memorizar el ruido específico de los datos de entrenamiento en lugar de aprender patrones robustos. Este fenómeno, conocido como sobreajuste, degrada el rendimiento en ejemplos nuevos y desconocidos. El suavizado de etiquetas aborda este problema disuadiendo al modelo de predecir con absoluta certeza, esencialmente indicándole a la red que siempre existe un pequeño margen de error.
Para comprender cómo funciona el suavizado de etiquetas, resulta útil compararlo con los objetivos «duros» estándar. En
el método tradicional aprendizaje supervisado, las etiquetas de clasificación
se representan normalmente mediante codificación one-hot. Por ejemplo,
en una tarea que distingue entre gatos y perros, una imagen de «perro» tendría un vector objetivo de
[0, 1]. Para que esto encaje a la perfección, el modelo impulsa sus puntuaciones internas, conocidas como
logits, hacia el infinito, lo que puede provocar
gradientes inestables y una incapacidad de adaptación.
El suavizado de etiquetas sustituye estos rígidos 1 y 0 por objetivos «suaves». En lugar de una probabilidad objetivo de
1.0, se podría asignar la clase correcta. 0.9, mientras que la masa de probabilidad restante
(0.1) se distribuye uniformemente entre las clases incorrectas. Este sutil cambio modifica el objetivo de
la función de pérdida, como
entropía cruzada, impidiendo que
función de activación (normalmente
Softmax) de saturarse. El resultado es un modelo que aprende
grupos más ajustados de clases en el espacio de características y produce mejores
calibración del modelo, lo que significa que las
probabilidades previstas reflejan con mayor precisión la probabilidad real de corrección.
Esta técnica es especialmente crítica en dominios en los que la ambigüedad de los datos es inherente o los conjuntos de datos son propensos a errores de etiquetado .
Los modernos marcos de aprendizaje profundo simplifican la aplicación de esta técnica. Utilizando el
ultralytics paquete, puede integrar fácilmente el suavizado de etiquetas en su canalización de entrenamiento para
clasificación de imágenes o tareas de detección. Esto
se hace a menudo para sacar un rendimiento extra a modelos de última generación como
YOLO26.
El siguiente ejemplo muestra cómo entrenar un modelo de clasificación con el suavizado de etiquetas habilitado:
from ultralytics import YOLO
# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")
# Train with label_smoothing set to 0.1
# The target for the correct class becomes 1.0 - 0.5 * 0.1 = 0.95 (depending on implementation specifics)
model.train(data="mnist", epochs=5, label_smoothing=0.1)
Es útil distinguir el suavizado de etiquetas de otras estrategias de regularización para comprender cuándo utilizarlo.
Al mitigar el problema del gradiente de desaparición en las capas finales y animar al modelo a aprender características más robustas, el suavizado de etiquetas sigue siendo un elemento básico en las modernas arquitecturas de aprendizaje profundo.