Glosario

ImageNet

Descubre ImageNet, el revolucionario conjunto de datos que impulsa los avances en visión por ordenador con más de 14 millones de imágenes, potenciando la investigación, los modelos y las aplicaciones de IA.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

ImageNet es un conjunto de datos fundacional muy grande, ampliamente utilizado en la investigación y el desarrollo de la visión por ordenador (VC). Consta de más de 14 millones de imágenes que han sido anotadas manualmente para indicar qué objetos aparecen en ellas, organizadas según la jerarquía WordNet. Con más de 20.000 categorías (synsets), ImageNet proporciona un recurso rico y diverso para entrenar y evaluar modelos de aprendizaje automático (AM ), en particular para tareas como la clasificación y el reconocimiento de imágenes. Su enorme escala y sus detalladas anotaciones han sido cruciales para el avance de este campo. Puedes obtener más información sobre el uso del conjunto de datos con los modelos Ultralytics en la página de documentación del conjunto de datos ImageNet.

Importancia y relevancia

La introducción de ImageNet marcó un momento crucial para el aprendizaje profundo (AD), especialmente en visión por ordenador. Antes de ImageNet, la falta de conjuntos de datos grandes, diversos y bien etiquetados era un importante cuello de botella. ImageNet permitió el entrenamiento de modelos mucho más profundos y complejos, como las redes neuronales convolucionales (CNN), lo que dio lugar a importantes avances. El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC), que se celebró de 2010 a 2017, utilizó un subconjunto de ImageNet y se convirtió en la referencia estándar para evaluar los algoritmos de clasificación de imágenes y detección de objetos. Modelos como AlexNet y ResNet, que obtuvieron resultados de vanguardia en ImageNet, influyeron enormemente en las arquitecturas modernas de CV.

Aplicaciones de ImageNet

La principal aplicación de ImageNet es servir como punto de referencia estándar para evaluar nuevos modelos y algoritmos de visión por ordenador. Más allá de la evaluación comparativa, se utiliza ampliamente para el preentrenamiento de modelos.

  • Preentrenamiento para el aprendizaje por transferencia: Los modelos entrenados en ImageNet aprenden características visuales generales que son útiles para una amplia variedad de otras tareas de visión. Esta técnica, conocida como aprendizaje de transferencia, permite a los desarrolladores adaptar modelos preentrenados (como los disponibles en Ultralytics HUB) para aplicaciones específicas utilizando conjuntos de datos personalizados mucho más pequeños, reduciendo significativamente el tiempo de entrenamiento y los requisitos de datos. Muchos sitios Ultralytics YOLO de Ultralytics, por ejemplo, aprovechan las ponderaciones preentrenadas en grandes conjuntos de datos.
  • Investigación avanzada: ImageNet sigue impulsando la investigación en áreas como el aprendizaje de representaciones, la adaptación de dominios y la comprensión del funcionamiento interno de las redes neuronales profundas.

Ejemplos reales

  1. Análisis de imágenes médicas: Aunque ImageNet no contiene imágenes médicas, los modelos preentrenados en ella se utilizan con frecuencia como punto de partida para tareas de análisis de imágenes médicas. Las capacidades generales de extracción de características aprendidas en ImageNet pueden afinarse en conjuntos de datos más pequeños de radiografías, tomografías computarizadas o resonancias magnéticas para ayudar a detectar anomalías como tumores o fracturas, como se demuestra en aplicaciones como el uso de YOLO para la detección de tumores.
  2. Vehículos autónomos: Los modelos de reconocimiento de objetos son fundamentales para los vehículos autónomos. Muchos de los modelos fundacionales utilizados para identificar peatones, coches, semáforos y señales de tráfico se desarrollaron y evaluaron inicialmente utilizando ImageNet, lo que demuestra el papel del conjunto de datos en la construcción de los sistemas de percepción para la IA de los coches autónomos.

ImageNet frente a otros conjuntos de datos

Mientras que ImageNet es enorme y excelente para tareas de clasificación, otros conjuntos de datos sirven para fines distintos. Por ejemplo, el conjunto de datos COCO (Common Objects in Context) se utiliza ampliamente para la detección, segmentación y subtitulación de objetos, y ofrece anotaciones más detalladas, como máscaras de instancia y cuadros delimitadores para menos categorías de objetos en comparación con ImageNet. Del mismo modo, Open Images V7 proporciona cuadros delimitadores para un gran número de clases de objetos. La elección del conjunto de datos suele depender de la tarea específica de visión por ordenador, como la clasificación, la detección o la segmentación. Explorar varios conjuntos de datos de visión por ordenador ayuda a seleccionar el más adecuado para un proyecto.

Leer todo