Glosario

Conjunto de datos de referencia

Descubre cómo los conjuntos de datos de referencia impulsan la innovación en IA al permitir la evaluación justa de modelos, la reproducibilidad y el progreso en el aprendizaje automático.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Un conjunto de datos de referencia es una colección estandarizada de datos utilizados para evaluar y comparar el rendimiento de los modelos de aprendizaje automático (AM). Estos conjuntos de datos desempeñan un papel crucial en el desarrollo y avance de la inteligencia artificial (IA), al proporcionar una forma coherente y fiable de medir la precisión, eficiencia y eficacia general de los modelos. Los investigadores y desarrolladores utilizan conjuntos de datos de referencia para probar nuevos algoritmos, validar las mejoras de los modelos y asegurarse de que sus modelos funcionan bien en estándares reconocidos. Son esenciales para impulsar la innovación y garantizar comparaciones objetivas en el campo de la IA, en rápida evolución.

Importancia de los conjuntos de datos de referencia

Los conjuntos de datos de referencia son fundamentales para la comunidad de IA/ML por varias razones. En primer lugar, establecen una base común para evaluar el rendimiento de los modelos. Al utilizar el mismo conjunto de datos, los investigadores pueden comparar directamente los puntos fuertes y débiles de diferentes modelos. En segundo lugar, los conjuntos de datos de referencia fomentan la reproducibilidad en la investigación. Cuando todo el mundo utiliza los mismos datos, resulta más fácil verificar los resultados y basarse en el trabajo existente. Esta transparencia ayuda a acelerar el progreso y a mantener un alto nivel en este campo. Por último, los conjuntos de datos de referencia ayudan a identificar las áreas en las que los modelos destacan o se quedan cortos, orientando los futuros esfuerzos de investigación y desarrollo.

Características principales de los conjuntos de datos de referencia

Los conjuntos de datos de referencia se seleccionan cuidadosamente para garantizar que son adecuados para evaluar modelos de IA/ML. Algunas características clave son:

  • Pertinencia: Los datos deben ser representativos de los problemas y escenarios del mundo real que los modelos pretenden resolver.
  • Tamaño: Los conjuntos de datos deben ser lo suficientemente grandes como para proporcionar una evaluación exhaustiva del rendimiento del modelo, capturando una amplia gama de variaciones y complejidades.
  • Calidad: Los datos deben estar etiquetados con precisión y libres de errores para garantizar unos resultados de evaluación fiables. La limpieza de los datos suele ser un paso crucial en la preparación de los conjuntos de datos de referencia.
  • Diversidad: El conjunto de datos debe incluir una gama diversa de ejemplos para garantizar que los modelos se prueban en diferentes escenarios y no están sesgados hacia tipos específicos de datos.
  • Accesibilidad: Los conjuntos de datos de referencia suelen ponerse a disposición pública de la comunidad investigadora para fomentar su uso generalizado y la colaboración.

Aplicaciones de los conjuntos de datos de referencia

Los conjuntos de datos de referencia se utilizan en diversas tareas de IA/ML, entre ellas:

  • Detección de objetos: Los conjuntos de datos como COCO y PASCAL VOC se utilizan ampliamente para evaluar el rendimiento de los modelos de detección de objetos. Estos conjuntos de datos contienen imágenes con cuadros delimitadores etiquetados alrededor de los objetos, lo que permite a los investigadores medir lo bien que los modelos pueden identificar y localizar objetos dentro de las imágenes. Explora más sobre los conjuntos de datos y sus formatos en la documentación de conjuntos de datos de Ultralytics'.
  • Clasificación de imágenes: Los conjuntos de datos como ImageNet se utilizan para evaluar los modelos de clasificación de imágenes. ImageNet, por ejemplo, contiene millones de imágenes en miles de categorías, lo que proporciona un sólido banco de pruebas para la precisión de los modelos.
  • Procesamiento del Lenguaje Natural (PLN): En PLN, se utilizan conjuntos de datos como los puntos de referencia GLUE y SuperGLUE para evaluar modelos en diversas tareas de comprensión del lenguaje, como el análisis de sentimientos, la clasificación de textos y la respuesta a preguntas.
  • Análisis de imágenes médicas: Los conjuntos de datos que contienen imágenes médicas, como resonancias magnéticas y tomografías computarizadas, se utilizan para evaluar modelos diseñados para el análisis de imágenes médicas. Por ejemplo, el Conjunto de Datos de Detección de Tumores Cerebrales se utiliza para evaluar modelos que detectan y clasifican tumores cerebrales.

Ejemplos reales

Conjunto de datos COCO

El conjunto de datos Objetos Comunes en Contexto (COCO ) es un conjunto de datos de referencia muy utilizado en visión por ordenador. Contiene más de 330.000 imágenes con anotaciones para la detección, segmentación y subtitulación de objetos. COCO se utiliza para evaluar modelos como Ultralytics YOLO , proporcionando una forma estandarizada de medir su rendimiento en imágenes complejas del mundo real.

Conjunto de datos ImageNet

ImageNet es otro destacado conjunto de datos de referencia, sobre todo para la clasificación de imágenes. Contiene más de 14 millones de imágenes, cada una etiquetada con una de miles de categorías. ImageNet ha desempeñado un papel decisivo en el avance de la investigación del aprendizaje profundo, ya que ofrece un conjunto de datos diverso y a gran escala para el entrenamiento y la evaluación de modelos.

Conceptos relacionados y diferencias

Los conjuntos de datos de referencia son distintos de otros tipos de conjuntos de datos utilizados en los flujos de trabajo de ML. Por ejemplo, difieren de los datos de entrenamiento, que se utilizan para entrenar modelos, y de los datos de validación, que se utilizan para ajustar hiperparámetros y evitar el sobreajuste. A diferencia de los datos sintéticos, que se generan artificialmente, los conjuntos de datos de referencia suelen consistir en datos del mundo real recogidos de diversas fuentes.

Retos y orientaciones futuras

A pesar de sus ventajas, los conjuntos de datos de referencia plantean problemas. Si los datos no representan con exactitud los escenarios del mundo real a los que se enfrentarán los modelos, pueden producirse sesgos en los conjuntos de datos. Además, con el tiempo los datos pueden desviarse, ya que la distribución de los datos del mundo real cambia, lo que hace que los conjuntos de datos de referencia más antiguos sean menos relevantes.

Para hacer frente a estos retos, cada vez se hace más hincapié en la creación de conjuntos de datos más diversos y representativos. Iniciativas como las plataformas de datos de código abierto y la conservación impulsada por la comunidad están ayudando a desarrollar conjuntos de datos de referencia más sólidos e inclusivos. Plataformas como Ultralytics HUB facilitan a los usuarios la gestión y el intercambio de conjuntos de datos para tareas de visión por ordenador, fomentando la colaboración y la mejora continua.

Leer todo