Glosario

Sobreajuste

Aprende a detectar y evitar el sobreajuste en el aprendizaje automático con técnicas como el aumento de datos, la regularización y la validación cruzada.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El sobreajuste es un problema habitual en el aprendizaje automático, en el que un modelo aprende demasiado bien los datos de entrenamiento, incluidos el ruido y los valores atípicos. Esto da lugar a un modelo que funciona excepcionalmente bien con los datos de entrenamiento, pero mal con los datos no vistos, como un conjunto de validación o prueba. Esencialmente, el modelo no consigue generalizar, capturando los detalles específicos de los datos de entrenamiento en lugar de los patrones subyacentes.

Detectar y evitar el sobreajuste

Identificar el sobreajuste implica controlar el rendimiento del modelo tanto en los datos de entrenamiento como en otros datos de validación. Una diferencia significativa en el rendimiento entre estos dos conjuntos de datos indica un posible sobreajuste. Varias técnicas pueden ayudar a evitar el sobreajuste:

  • Aumento de datos: Aumentar el tamaño y la diversidad del conjunto de datos de entrenamiento mediante el aumento de datos puede ayudar al modelo a aprender características más robustas.
  • Validación cruzada: Utilizar técnicas como la validación cruzada K-Fold ayuda a evaluar lo bien que generaliza el modelo a los nuevos datos.
  • Regularización: Los métodos de regularización, como la regularización L1 y L2, añaden un término de penalización a la función de pérdida para desalentar los modelos demasiado complejos.
  • Detención temprana: Controlar el rendimiento del modelo en un conjunto de validación y detener el entrenamiento cuando el rendimiento empiece a degradarse puede evitar el sobreajuste.
  • Modelos más sencillos: Elegir un modelo menos complejo y con menos parámetros puede reducir el riesgo de sobreajuste, sobre todo cuando el conjunto de datos es pequeño.

Relevancia e impacto

El sobreajuste es un problema crítico en varias aplicaciones de aprendizaje automático (AM ), que afecta a la fiabilidad y precisión de los modelos en situaciones reales. Por ejemplo, en visión por ordenador (VC), un modelo sobreajustado puede dar buenos resultados en el reconocimiento de objetos específicos en las imágenes de entrenamiento, pero no generalizar a imágenes nuevas no vistas.

Ejemplos reales

Diagnóstico médico

En sanidad, un modelo sobreajustado podría diagnosticar enfermedades con precisión basándose en el conjunto de datos de entrenamiento, pero fallar cuando se le presentan datos de nuevos pacientes. Por ejemplo, un modelo entrenado para detectar tumores cerebrales utilizando un conjunto limitado de resonancias magnéticas podría aprender las características específicas de esas resonancias en lugar de las características generales de los tumores. Esto puede llevar a un diagnóstico erróneo cuando el modelo se encuentre con exploraciones de pacientes o equipos de diagnóstico por imagen diferentes. Más información sobre la IA en la sanidad.

Vehículos autónomos

En el contexto de los vehículos autónomos, un modelo de detección de objetos sobreajustado puede funcionar a la perfección en simulaciones o entornos controlados, pero tener problemas en las diversas condiciones de conducción del mundo real. Por ejemplo, un modelo entrenado sólo con imágenes de peatones en tiempo soleado podría no detectar peatones con lluvia o nieve. Más información sobre la detección de objetos en el sitio web Ultralytics .

Términos distinguidos

Insuficiente

La inadaptación es lo contrario de la sobreadaptación. Se produce cuando un modelo es demasiado simple para captar los patrones subyacentes en los datos, lo que da lugar a un rendimiento deficiente tanto en los conjuntos de entrenamiento como en los de validación. A menudo se debe a una complejidad insuficiente del modelo o a un entrenamiento inadecuado.

Compensación Sesgo-Varianza

El equilibrio entre sesgo y varianza es un concepto fundamental en el aprendizaje automático que se relaciona con el sobreajuste y el infraajuste. Un sesgo elevado conduce a un ajuste insuficiente, mientras que una varianza elevada conduce a un ajuste excesivo. Equilibrar ambos es crucial para construir un modelo que generalice bien.

Herramientas y tecnologías

Varias herramientas y tecnologías pueden ayudar a mitigar el sobreajuste. Ultralytics YOLO Los modelos, por ejemplo, incorporan varias técnicas para evitar el sobreajuste, como los métodos avanzados de aumento y regularización de datos. Además, plataformas como Ultralytics HUB proporcionan herramientas para supervisar el rendimiento del modelo y ajustar los hiperparámetros para conseguir resultados óptimos.

Marcos como TensorFlow y PyTorch ofrecen un amplio soporte para implementar técnicas de regularización, validación cruzada y otros métodos para combatir el sobreajuste. Estas herramientas proporcionan la flexibilidad necesaria para construir modelos de aprendizaje automático robustos y fiables.

Leer todo