Glosario

Datos de entrenamiento

Descubre la importancia de los datos de entrenamiento en el aprendizaje automático, sus factores clave y cómo Ultralytics YOLO los aprovecha para crear modelos de IA de vanguardia.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los datos de entrenamiento son la piedra angular del aprendizaje automático supervisado, ya que proporcionan la base sobre la que los modelos aprenden a hacer predicciones precisas. Consisten en un conjunto de ejemplos de entrada, donde cada ejemplo se empareja con su correspondiente salida deseada, conocida como "verdad básica" o "etiqueta". Al analizar estos datos etiquetados, los algoritmos de aprendizaje automático identifican patrones y relaciones que les permiten generalizar y hacer predicciones sobre datos nuevos y no vistos. La calidad, el tamaño y la representatividad de los datos de entrenamiento influyen significativamente en el rendimiento y la fiabilidad del modelo entrenado.

Importancia de los datos de entrenamiento

Los datos de entrenamiento de alta calidad son esenciales para construir modelos de aprendizaje automático sólidos y precisos. Los datos deben ser representativos de los escenarios del mundo real con los que se encontrará el modelo, cubriendo una amplia gama de variaciones y casos extremos. Un conjunto de datos diverso y completo ayuda al modelo a aprender los patrones y relaciones subyacentes en los datos, lo que conduce a una mejor generalización y rendimiento en datos no vistos. Unos datos de entrenamiento insuficientes o sesgados pueden dar lugar a modelos que funcionen mal en aplicaciones del mundo real o muestren un comportamiento injusto o discriminatorio.

Consideraciones clave para los datos de entrenamiento

Varios factores contribuyen a la eficacia de los datos de entrenamiento:

  • Calidad de los datos: Unos datos precisos, coherentes y bien etiquetados son cruciales. Los errores o incoherencias en los datos pueden hacer que un modelo aprenda patrones incorrectos.
  • Cantidad de datos: Generalmente, más datos conducen a un mejor rendimiento del modelo, ya que le permite aprender patrones más complejos. Sin embargo, la calidad de los datos no debe sacrificarse por la cantidad.
  • Relevancia de los datos: Los datos de entrenamiento deben ser relevantes para la tarea específica para la que se está entrenando el modelo. Incluir datos irrelevantes puede introducir ruido y dificultar la capacidad del modelo para aprender los patrones deseados.
  • Diversidad de datos: Un conjunto de datos diverso que abarque una amplia gama de escenarios, variaciones y casos límite ayuda al modelo a generalizarse mejor a nuevos datos no vistos.
  • Equilibrio de datos: En las tareas de clasificación, es importante tener una representación equilibrada de cada clase en los datos de entrenamiento. Los datos desequilibrados pueden dar lugar a modelos sesgados que funcionan mal en las clases infrarrepresentadas. Más información sobre cómo abordar el desequilibrio de datos en el Blog deUltralytics .

Datos de entrenamiento frente a términos relacionados

Es importante distinguir los datos de entrenamiento de otros tipos de datos utilizados en el aprendizaje automático:

  • Datos de validación: Los datos de validación se utilizan para ajustar los hiperparámetros del modelo y evaluar su rendimiento durante el entrenamiento. Ayudan a evitar el sobreajuste proporcionando una estimación no sesgada del rendimiento del modelo en datos no vistos.
  • Datos de prueba: Los datos de prueba se utilizan para evaluar el rendimiento final del modelo entrenado. Son completamente independientes de los datos de entrenamiento y validación, y proporcionan una estimación no sesgada del rendimiento del modelo en datos nuevos y no vistos.

Aplicaciones reales de los datos de entrenamiento

Los datos de entrenamiento se utilizan en una amplia gama de aplicaciones del mundo real en diversos sectores. He aquí dos ejemplos concretos:

Vehículos autónomos

Los coches autoconducidos dependen en gran medida de los datos de entrenamiento para aprender a navegar y tomar decisiones en entornos complejos del mundo real. Los datos de entrenamiento de estos sistemas suelen incluir imágenes y datos de sensores de cámaras, lidar y radar, junto con las etiquetas correspondientes que indican la presencia y ubicación de objetos como peatones, vehículos y señales de tráfico. Al entrenarse con grandes cantidades de datos diversos y representativos, los modelos de conducción autónoma pueden aprender a percibir con precisión su entorno y tomar decisiones de conducción seguras. Explora el papel de la IA de visión en los coches de conducción autónoma para saber más.

Diagnóstico médico

Los datos de entrenamiento desempeñan un papel crucial en el desarrollo de modelos de IA para el diagnóstico médico. Por ejemplo, en el campo de la imagen médica, se pueden entrenar modelos para detectar enfermedades como el cáncer a partir de radiografías, tomografías computarizadas o imágenes de resonancia magnética. Los datos de entrenamiento de estos modelos consisten en imágenes médicas etiquetadas por radiólogos expertos, que indican la presencia y localización de tumores u otras anomalías. Al aprender de grandes conjuntos de datos de imágenes médicas etiquetadas, los modelos de IA pueden ayudar a los médicos a realizar diagnósticos más rápidos y precisos. Más información sobre las aplicaciones de la IA en la asistencia sanitaria.

Datos de entrenamiento en Ultralytics YOLO

Ultralytics YOLO (Sólo se mira una vez) son modelos de detección de objetos de última generación que se basan en datos de entrenamiento de alta calidad para conseguir un rendimiento excepcional. Estos modelos se entrenan en grandes conjuntos de datos de imágenes con las correspondientes anotaciones de cuadros delimitadores, que indican la ubicación y la clase de los objetos dentro de cada imagen. Explora la variedad de modelos que admite Ultralytics, incluidos YOLOv3 a YOLOv10, NAS, SAM y RT-DETR para la detección, segmentación y mucho más.

Ultralytics proporciona una plataforma fácil de usar, Ultralytics HUB, para gestionar conjuntos de datos y entrenar modelos personalizados. Los usuarios pueden cargar sus propios conjuntos de datos o elegir entre una variedad de conjuntos de datos preexistentes, como COCO, para entrenar sus modelos. Más información sobre el entrenamiento de conjuntos de datos personalizados con Ultralytics YOLO en Google Colab. La plataforma también ofrece herramientas para la visualización de datos, la evaluación de modelos y el despliegue, lo que facilita la creación y el despliegue de modelos de detección de objetos de alto rendimiento.

La documentación de Ultralytics proporciona amplios recursos sobre formatos de conjuntos de datos, entrenamiento de modelos y métricas de rendimiento, lo que permite a los usuarios aprovechar eficazmente los datos de entrenamiento para sus aplicaciones específicas.

Leer todo