Glosario

Datos de entrenamiento

Descubre la importancia de los datos de entrenamiento en la IA. Aprende cómo los conjuntos de datos de calidad potencian modelos de aprendizaje automático precisos y robustos para tareas del mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

En los campos de la Inteligencia Artificial (IA) y el Aprendizaje Automático, los datos de entrenamiento son el ingrediente esencial utilizado para enseñar a los modelos a realizar tareas. Consisten en un conjunto de datos que contiene numerosos ejemplos, donde cada ejemplo empareja una entrada con su salida o etiqueta deseada. Al procesar estos datos, normalmente mediante algoritmos de Aprendizaje Supervisado, el modelo aprende a identificar patrones, relaciones y características, lo que le permite hacer predicciones o tomar decisiones sobre nuevos datos no vistos.

¿Qué son los datos de entrenamiento?

Los datos de entrenamiento actúan como material educativo para un modelo de IA. Se trata de una colección curada de información formateada específicamente para servir como ejemplos para el proceso de aprendizaje. Por ejemplo, en tareas de visión por ordenador como la Detección de Objetos, los datos de entrenamiento comprenden imágenes o fotogramas de vídeo(Características de Entrada) junto con anotaciones que indican la ubicación y la clase de los objetos que contienen (etiquetas). El proceso de creación de estas etiquetas se conoce como Etiquetado de Datos. El modelo ajusta iterativamente sus parámetros internos basándose en estos datos para minimizar la diferencia entre sus predicciones y las etiquetas proporcionadas.

Importancia de los datos de entrenamiento

La calidad, cantidad y diversidad de los datos de entrenamiento determinan directamente el rendimiento de un modelo y su capacidad de generalización a escenarios del mundo real(Generalización en ML). Los datos representativos y de alta calidad ayudan a construir modelos que sean robustos y alcancen una alta Precisión. Unos datos insuficientes o sesgados pueden dar lugar a un rendimiento deficiente, a un sobreajuste (cuando el modelo aprende demasiado bien los datos de entrenamiento pero falla con los nuevos datos), o a resultados injustos debido al Sesgo del Conjunto de Datos. Por lo tanto, la recopilación y preparación cuidadosas de los datos de entrenamiento son pasos críticos en cualquier proyecto de IA.

Ejemplos de datos de entrenamiento en aplicaciones reales

Los datos de entrenamiento alimentan innumerables aplicaciones de IA. He aquí dos ejemplos:

  1. Vehículos autónomos: Modelos como Ultralytics YOLO utilizados en la IA de los coches autónomos se entrenan con vastos conjuntos de datos que contienen imágenes y datos de sensores de diversas condiciones de conducción. Estos datos se etiquetan meticulosamente con cuadros delimitadores o máscaras de segmentación para objetos como vehículos, peatones, ciclistas y señales de tráfico, a menudo utilizando grandes conjuntos de datos públicos como el Conjunto de Datos COCO.
  2. Procesamiento del Lenguaje Natural: Para tareas como el Análisis de Sentimientos (Wikipedia), los datos de entrenamiento consisten en muestras de texto (por ejemplo, reseñas de productos, publicaciones en redes sociales) etiquetadas con sentimientos como "positivo", "negativo" o "neutro". El modelo aprende a asociar patrones lingüísticos con estas etiquetas de sentimiento.

Calidad y preparación de los datos

Garantizar datos de entrenamiento de alta calidad implica varios procesos clave:

  • Recogida de datos: Recopilación de datos relevantes que reflejen con precisión el ámbito del problema.
  • Limpieza de datos (Wikipedia): Identificación y corrección de errores, incoherencias o valores omitidos en el conjunto de datos.
  • Etiquetado de datos: Anotar con precisión los datos con los resultados u objetivos correctos.
  • Aumento de datos: Ampliación artificial del conjunto de datos mediante la creación de copias modificadas de los datos existentes (por ejemplo, girando las imágenes, cambiando el brillo) para mejorar la solidez del modelo.

Datos de Entrenamiento vs. Datos de Validación y Prueba

Aunque a menudo se habla de ellos juntos, estos conjuntos de datos tienen finalidades distintas:

  • Datos de entrenamiento: Se utilizan para entrenar el modelo ajustando sus parámetros (pesos).
  • Datos de validación: Se utilizan periódicamente durante el entrenamiento para evaluar el rendimiento del modelo en datos no vistos y para ajustar los hiperparámetros(Optimización de hiperparámetros (Wikipedia)) sin introducir sesgos del conjunto de pruebas.
  • Datos de prueba: Sólo se utilizan una vez finalizado el entrenamiento del modelo, para proporcionar una evaluación final e imparcial del rendimiento del modelo con datos completamente nuevos.

Separar adecuadamente estos conjuntos de datos es crucial para desarrollar modelos fiables y evaluar con precisión sus capacidades en el mundo real. Plataformas como Ultralytics HUB ayudan a gestionar eficazmente estos conjuntos de datos durante el ciclo de vida de desarrollo del modelo.

Leer todo