Découvre ImageNet, l'ensemble de données révolutionnaire qui alimente les progrès de la vision par ordinateur avec plus de 14 millions d'images, qui alimente la recherche, les modèles et les applications de l'IA.
ImageNet est un très grand ensemble de données fondamentales largement utilisé dans la recherche et le développement de la vision par ordinateur (VA). Il se compose de plus de 14 millions d'images qui ont été annotées manuellement pour indiquer les objets représentés, organisés selon la hiérarchie WordNet. Avec plus de 20 000 catégories (synsets), ImageNet constitue une ressource riche et diversifiée pour la formation et l'évaluation des modèles d'apprentissage automatique, en particulier pour des tâches telles que la classification et la reconnaissance d'images. Son ampleur et ses annotations détaillées ont joué un rôle crucial dans l'avancement de ce domaine. Tu peux en savoir plus sur l'utilisation de l'ensemble de données avec les modèles Ultralytics sur la page de documentation de l'ensemble de données ImageNet.
L'introduction d'ImageNet a marqué un moment charnière pour l'apprentissage profond (AP), en particulier dans le domaine de la vision par ordinateur. Avant ImageNet, le manque de grands ensembles de données diversifiés et bien étiquetés constituait un goulot d'étranglement majeur. ImageNet a permis l'entraînement de modèles beaucoup plus profonds et complexes, tels que les réseaux neuronaux convolutifs (CNN), ce qui a conduit à des percées significatives. Le concours annuel de reconnaissance visuelle à grande échelle ImageNet (ILSVRC), qui s'est déroulé de 2010 à 2017, a utilisé un sous-ensemble d'ImageNet et est devenu la référence standard pour l'évaluation des algorithmes de classification d'images et de détection d'objets. Des modèles comme AlexNet et ResNet, qui ont obtenu des résultats de pointe sur ImageNet, ont fortement influencé les architectures modernes de CV.
L'application principale d'ImageNet est de servir de référence standard pour évaluer les nouveaux modèles et algorithmes de vision par ordinateur. Au-delà de l'évaluation comparative, il est largement utilisé pour le pré-entraînement des modèles.
Si ImageNet est vaste et excellent pour les tâches de classification, d'autres ensembles de données répondent à des objectifs différents. Par exemple, l'ensemble de données COCO (Common Objects in Context) est largement utilisé pour la détection d'objets, la segmentation et le sous-titrage, et offre des annotations plus détaillées telles que des masques d'instance et des boîtes de délimitation pour moins de catégories d'objets qu'ImageNet. De même, Open Images V7 fournit des boîtes de délimitation pour un grand nombre de classes d'objets. Le choix d'un ensemble de données dépend souvent de la tâche spécifique de vision par ordinateur, telle que la classification, la détection ou la segmentation. L'exploration de divers ensembles de données de vision par ordinateur permet de sélectionner celui qui convient le mieux à un projet.