Glosario

Datos de validación

Optimiza los modelos de aprendizaje automático con datos de validación para evitar el sobreajuste, ajustar los hiperparámetros y garantizar un rendimiento sólido en el mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los datos de validación son un componente crucial en el ciclo de desarrollo del Aprendizaje Automático (AM). Se trata de un subconjunto separado del conjunto de datos original, distinto de los datos de entrenamiento utilizados para ajustar el modelo y de los datos de prueba utilizados para la evaluación final. El objetivo principal de los datos de validación es proporcionar una evaluación imparcial del ajuste de un modelo en el conjunto de datos de entrenamiento mientras se ajustan los hiperparámetros del modelo y se toman decisiones sobre la arquitectura del modelo. Este proceso ayuda a seleccionar la mejor configuración del modelo antes de evaluar su rendimiento final en datos no vistos.

El papel de los datos de validación

Durante el proceso de entrenamiento del modelo, un modelo ML aprende patrones a partir de los datos de entrenamiento. Sin embargo, evaluar el modelo únicamente a partir de estos datos puede ser engañoso, ya que el modelo podría limitarse a memorizar los ejemplos de entrenamiento, un fenómeno conocido como sobreajuste. Los datos de validación actúan como punto de control. Evaluando el rendimiento del modelo en este conjunto separado periódicamente durante el entrenamiento, los desarrolladores pueden:

  1. Ajusta los hiperparámetros: Ajusta parámetros como la tasa de aprendizaje, el tamaño del lote o la complejidad del modelo basándote en las métricas de rendimiento(Precisión, mAP, etc.) calculadas en el conjunto de validación. Esto se suele hacer utilizando las técnicas que se comentan en las guías de ajuste de hiperparámetros.
  2. Seleccionar modelos: Comparar diferentes arquitecturas o versiones de modelos (por ejemplo, comparar Ultralytics YOLOv8 frente a YOLOv10) en función de su rendimiento de validación.
  3. Evita el sobreajuste: Controla las métricas de validación para detectar cuándo el modelo empieza a rendir peor en el conjunto de validación aunque mejore el rendimiento de entrenamiento, lo que indica sobreajuste. Las técnicas como la detención temprana se basan en el rendimiento de la validación.

Datos de validación frente a datos de entrenamiento y de prueba

Comprender la distinción entre conjuntos de datos de entrenamiento, validación y prueba es fundamental para el desarrollo de modelos sólidos:

  • Datos de entrenamiento: La mayor parte del conjunto de datos, utilizada directamente por el algoritmo de aprendizaje para aprender patrones y ajustar los pesos del modelo. El modelo "ve" estos datos con frecuencia durante los bucles de entrenamiento(épocas).
  • Datos de validación: Una porción más pequeña utilizada indirectamente durante el entrenamiento. El modelo no aprende directamente de estos datos, pero el rendimiento en este conjunto guía las decisiones sobre los hiperparámetros y la estructura del modelo. Proporciona información sobre lo bien que el modelo podría generalizarse a nuevos datos durante la fase de desarrollo.
  • Datos de prueba: Una porción completamente separada de datos que el modelo nunca ha visto durante el entrenamiento o la validación. Se utiliza una sola vez, una vez completados el entrenamiento y la puesta a punto, para proporcionar una estimación final e imparcial de la capacidad de generalización del modelo en datos reales no vistos.

Una separación adecuada, a menudo gestionada mediante herramientas como Ultralytics HUB para el versionado y la gestión de conjuntos de datos, garantiza que la información del conjunto de pruebas no se "filtre" en el proceso de entrenamiento o de selección de modelos, lo que llevaría a estimaciones de rendimiento demasiado optimistas.

Ajuste de hiperparámetros y selección de modelos

Los datos de validación son indispensables para el ajuste de los hiperparámetros. Los hiperparámetros son ajustes de configuración externos al propio modelo, establecidos antes de que comience el proceso de aprendizaje. Algunos ejemplos son la velocidad de aprendizaje, el número de capas de una red neuronal o el tipo de algoritmo de optimización utilizado. Los desarrolladores entrenan varias versiones del modelo con distintas combinaciones de hiperparámetros, evalúan cada una de ellas en el conjunto de validación y seleccionan la combinación que produce el mejor rendimiento. Esta búsqueda sistemática puede automatizarse utilizando métodos como la Búsqueda en Cuadrícula o la Optimización Bayesiana, a menudo facilitada por plataformas integradas con herramientas MLOps.

Ejemplos reales

  1. Detección de Objetospor Visión Artificial: Al entrenar un Ultralytics YOLO para detectar objetos en imágenes (por ejemplo, utilizando el conjunto de datos VisDrone), se reserva una parte de las imágenes etiquetadas como datos de validación. Durante el entrenamiento, se calcula la mAP (Precisión Media Media) del modelo en este conjunto de validación después de cada época. Este mAP de validación ayuda a decidir cuándo detener el entrenamiento (detención temprana) o qué conjunto de técnicas de aumento de datos funciona mejor, antes de una comprobación final del rendimiento en el conjunto de prueba. Las estrategias eficaces de evaluación de modelos dependen en gran medida de esta división.
  2. Procesamiento del Lenguaje Natural Clasificación de Textos: Al desarrollar un modelo para clasificar las opiniones de los clientes como positivas o negativas(análisis de sentimientos), se utiliza un conjunto de validación para elegir la arquitectura óptima (por ejemplo, LSTM frente a Transformer) o ajustar hiperparámetros como las tasas de abandono. El modelo que consiga la mayor puntuación F1 o precisión en el conjunto de validación se seleccionará para la prueba final. Recursos como Hugging Face suelen proporcionar conjuntos de datos previamente divididos para este fin.

Validación cruzada

Cuando la cantidad de datos disponibles es limitada, a menudo se emplea una técnica llamada Validación Cruzada (concretamente Validación Cruzada de K pliegues). Aquí, los datos de entrenamiento se dividen en "K" subconjuntos (pliegues). El modelo se entrena K veces, utilizando cada vez K-1 pliegues para el entrenamiento y el pliegue restante como conjunto de validación. A continuación, se calcula la media del rendimiento en todas las K ejecuciones. Esto proporciona una estimación más sólida del rendimiento del modelo y hace un mejor uso de los datos limitados, como se explica en la guía de validación cruzada de pliegues K deUltralytics .

En resumen, los datos de validación son una piedra angular para construir modelos de Inteligencia Artificial (IA) fiables y de alto rendimiento. Permiten un ajuste eficaz de los hiperparámetros, la selección de modelos y la prevención del sobreajuste, garantizando que los modelos generalicen mucho más allá de los datos en los que fueron entrenados.

Leer todo