Descubre ImageNet, el revolucionario conjunto de datos que impulsa los avances en visión por ordenador con más de 14 millones de imágenes, potenciando la investigación, los modelos y las aplicaciones de IA.
ImageNet es un conjunto de datos fundacional muy grande, ampliamente utilizado en la investigación y el desarrollo de la visión por ordenador (VC). Consta de más de 14 millones de imágenes que han sido anotadas manualmente para indicar qué objetos aparecen en ellas, organizadas según la jerarquía WordNet. Con más de 20.000 categorías (synsets), ImageNet proporciona un recurso rico y diverso para entrenar y evaluar modelos de aprendizaje automático (AM ), en particular para tareas como la clasificación y el reconocimiento de imágenes. Su enorme escala y sus detalladas anotaciones han sido cruciales para el avance de este campo. Puedes obtener más información sobre el uso del conjunto de datos con los modelos Ultralytics en la página de documentación del conjunto de datos ImageNet.
La introducción de ImageNet marcó un momento crucial para el aprendizaje profundo (AD), especialmente en visión por ordenador. Antes de ImageNet, la falta de conjuntos de datos grandes, diversos y bien etiquetados era un importante cuello de botella. ImageNet permitió el entrenamiento de modelos mucho más profundos y complejos, como las redes neuronales convolucionales (CNN), lo que dio lugar a importantes avances. El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC), que se celebró de 2010 a 2017, utilizó un subconjunto de ImageNet y se convirtió en la referencia estándar para evaluar los algoritmos de clasificación de imágenes y detección de objetos. Modelos como AlexNet y ResNet, que obtuvieron resultados de vanguardia en ImageNet, influyeron enormemente en las arquitecturas modernas de CV.
La principal aplicación de ImageNet es servir como punto de referencia estándar para evaluar nuevos modelos y algoritmos de visión por ordenador. Más allá de la evaluación comparativa, se utiliza ampliamente para el preentrenamiento de modelos.
Mientras que ImageNet es enorme y excelente para tareas de clasificación, otros conjuntos de datos sirven para fines distintos. Por ejemplo, el conjunto de datos COCO (Common Objects in Context) se utiliza ampliamente para la detección, segmentación y subtitulación de objetos, y ofrece anotaciones más detalladas, como máscaras de instancia y cuadros delimitadores para menos categorías de objetos en comparación con ImageNet. Del mismo modo, Open Images V7 proporciona cuadros delimitadores para un gran número de clases de objetos. La elección del conjunto de datos suele depender de la tarea específica de visión por ordenador, como la clasificación, la detección o la segmentación. Explorar varios conjuntos de datos de visión por ordenador ayuda a seleccionar el más adecuado para un proyecto.