Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Datos de entrenamiento

Descubra cómo los datos de entrenamiento impulsan los modelos de IA. Explore el abastecimiento, la anotación y cómo entrenar Ultralytics para obtener una precisión superior en tareas de visión artificial.

Los datos de entrenamiento son el conjunto de datos inicial que se utiliza para enseñar a un modelo de aprendizaje automático a reconocer patrones, realizar predicciones o llevar a cabo tareas específicas. Actúan como el libro de texto fundamental para los sistemas de inteligencia artificial, proporcionando la verdad fundamental que el algoritmo analiza para ajustar sus parámetros internos. En el contexto del aprendizaje supervisado , los datos de entrenamiento consisten en muestras de entrada emparejadas con las etiquetas de salida correspondientes, lo que permite al modelo aprender la relación entre ambas. La calidad, la cantidad y la diversidad de estos datos influyen directamente en la precisión final del modelo y en su capacidad para generalizar a información nueva y desconocida.

El papel de los datos de entrenamiento en la IA

La función principal de los datos de entrenamiento es minimizar el error entre las predicciones del modelo y los resultados reales . Durante el proceso de entrenamiento del modelo, el algoritmo procesa los datos de forma iterativa, identificando características —como los bordes de una imagen o las palabras clave de una frase— que se correlacionan con etiquetas específicas. Este proceso es distinto del de los datos de validación, que se utilizan para ajustar los hiperparámetros durante el entrenamiento, y de los datos de prueba, que se reservan para la evaluación final del rendimiento del modelo.

Los datos de entrenamiento de alta calidad deben ser representativos de los escenarios del mundo real con los que se encontrará el modelo. Si el conjunto de datos contiene sesgos o carece de diversidad, el modelo puede sufrir un sobreajuste, es decir, memoriza los ejemplos de entrenamiento pero no funciona bien con nuevas entradas. Por el contrario, el subajuste se produce cuando los datos son demasiado simples o insuficientes para que el modelo capte los patrones subyacentes.

Aplicaciones en el mundo real

Los datos de entrenamiento impulsan las innovaciones en prácticamente todos los sectores, ya que permiten a los sistemas aprender de ejemplos históricos .

  • IA en la asistencia sanitaria: En el diagnóstico médico , los datos de entrenamiento pueden consistir en miles de imágenes de rayos X etiquetadas como «sanas» o que contienen patologías específicas como la neumonía. Al procesar estos ejemplos etiquetados, modelos como Ultralytics pueden aprender a ayudar a los radiólogos resaltando posibles anomalías con gran precisión, lo que acelera significativamente los tiempos de diagnóstico.
  • Vehículos autónomos: Los coches autónomos se basan en enormes conjuntos de datos que contienen millones de kilómetros de imágenes de conducción. Estos datos de entrenamiento incluyen fotogramas anotados que muestran peatones, señales de tráfico, otros vehículos y marcadores de carril. Procedente de bibliotecas completas como Waymo Open Dataset o nuScenes, esta información enseña al sistema de percepción del vehículo a navegar con seguridad por entornos complejos.

Obtención y gestión de datos

Obtener datos de entrenamiento sólidos suele ser la parte más difícil de un proyecto de aprendizaje automático. Los datos pueden obtenerse de repositorios públicos como Google Search o colecciones especializadas como COCO para la detección de objetos . Sin embargo, los datos sin procesar suelen requerir una cuidadosa limpieza y anotación para garantizar su precisión.

Herramientas como la Ultralytics han optimizado este flujo de trabajo, ofreciendo un entorno integrado para cargar, etiquetar y gestionar conjuntos de datos. Una gestión eficaz también implica el aumento de datos, una técnica utilizada para aumentar artificialmente el tamaño del conjunto de entrenamiento mediante la aplicación de transformaciones, como volteo, rotación o ajuste de color , a las imágenes existentes. Esto ayuda a que los modelos sean más robustos frente a las variaciones en los datos de entrada.

Ejemplo práctico con YOLO26

El siguiente Python muestra cómo iniciar el entrenamiento utilizando el ultralytics biblioteca. Aquí, un preentrenado YOLO26 El modelo se ajusta con precisión en el COCO8, un pequeño conjunto de datos diseñado para verificar los procesos de entrenamiento.

from ultralytics import YOLO

# Load a pre-trained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# The 'data' argument specifies the dataset configuration file
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Importancia de la calidad de los datos

El adagio «si entra basura, sale basura» es fundamental para el aprendizaje automático. Ni siquiera las arquitecturas más sofisticadas , como los transformadores o las redes neuronales convolucionales profundas (CNN), pueden compensar unos datos de entrenamiento deficientes. Problemas como el ruido de etiquetas, en el que las etiquetas de la verdad fundamental son incorrectas, pueden degradar gravemente el rendimiento. Por lo tanto, los procesos rigurosos de control de calidad, que a menudo implican la verificación humana en el bucle, son esenciales para mantener la integridad del conjunto de datos.

Además, adherirse a los principios de ética de la IA requiere que los datos de entrenamiento sean examinados para detectar sesgos demográficos o socioeconómicos. Garantizar la equidad en la IA comienza con un conjunto de datos de entrenamiento equilibrado y representativo, lo que ayuda a evitar resultados discriminatorios en las aplicaciones implementadas.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora