Glossaire

ImageNet

Découvre ImageNet, l'ensemble de données révolutionnaire qui alimente les progrès de la vision par ordinateur avec plus de 14 millions d'images, qui alimente la recherche, les modèles et les applications de l'IA.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

ImageNet est un très grand ensemble de données fondamentales largement utilisé dans la recherche et le développement de la vision par ordinateur (VA). Il se compose de plus de 14 millions d'images qui ont été annotées manuellement pour indiquer les objets représentés, organisés selon la hiérarchie WordNet. Avec plus de 20 000 catégories (synsets), ImageNet constitue une ressource riche et diversifiée pour la formation et l'évaluation des modèles d'apprentissage automatique, en particulier pour des tâches telles que la classification et la reconnaissance d'images. Son ampleur et ses annotations détaillées ont joué un rôle crucial dans l'avancement de ce domaine. Tu peux en savoir plus sur l'utilisation de l'ensemble de données avec les modèles Ultralytics sur la page de documentation de l'ensemble de données ImageNet.

Importance et pertinence

L'introduction d'ImageNet a marqué un moment charnière pour l'apprentissage profond (AP), en particulier dans le domaine de la vision par ordinateur. Avant ImageNet, le manque de grands ensembles de données diversifiés et bien étiquetés constituait un goulot d'étranglement majeur. ImageNet a permis l'entraînement de modèles beaucoup plus profonds et complexes, tels que les réseaux neuronaux convolutifs (CNN), ce qui a conduit à des percées significatives. Le concours annuel de reconnaissance visuelle à grande échelle ImageNet (ILSVRC), qui s'est déroulé de 2010 à 2017, a utilisé un sous-ensemble d'ImageNet et est devenu la référence standard pour l'évaluation des algorithmes de classification d'images et de détection d'objets. Des modèles comme AlexNet et ResNet, qui ont obtenu des résultats de pointe sur ImageNet, ont fortement influencé les architectures modernes de CV.

Applications d'ImageNet

L'application principale d'ImageNet est de servir de référence standard pour évaluer les nouveaux modèles et algorithmes de vision par ordinateur. Au-delà de l'évaluation comparative, il est largement utilisé pour le pré-entraînement des modèles.

  • Pré-entraînement pour l'apprentissage par transfert : Les modèles formés sur ImageNet apprennent des caractéristiques visuelles générales qui sont utiles pour une grande variété d'autres tâches de vision. Cette technique, connue sous le nom d'apprentissage par transfert, permet aux développeurs d'adapter des modèles pré-entraînés (comme ceux disponibles dans Ultralytics HUB) à des applications spécifiques en utilisant des ensembles de données personnalisés beaucoup plus petits, ce qui réduit considérablement le temps de formation et les exigences en matière de données. De nombreux modèles Ultralytics YOLO d'Ultralytics, par exemple, s'appuient sur des poids pré-entraînés sur de grands ensembles de données.
  • Faire avancer la recherche : ImageNet continue d'alimenter la recherche dans des domaines tels que l'apprentissage de la représentation, l'adaptation au domaine et la compréhension du fonctionnement interne des réseaux neuronaux profonds.

Exemples concrets

  1. Analyse d'images médicales : Bien qu'ImageNet ne contienne pas d'images médicales, les modèles pré-entraînés sur ce réseau sont fréquemment utilisés comme point de départ pour des tâches d'analyse d'images médicales. Les capacités générales d'extraction de caractéristiques apprises sur ImageNet peuvent être affinées sur des ensembles de données plus petits de radiographies, de tomodensitogrammes ou d'IRM pour aider à détecter des anomalies telles que des tumeurs ou des fractures, comme le montrent des applications telles que l'utilisation de YOLO pour la détection de tumeurs.
  2. Véhicules autonomes : Les modèles de reconnaissance d'objets sont fondamentaux pour les véhicules autonomes. De nombreux modèles fondamentaux utilisés pour identifier les piétons, les voitures, les feux de signalisation et les panneaux de signalisation ont été initialement développés et évalués à l'aide d'ImageNet, ce qui démontre le rôle de l'ensemble de données dans la construction des systèmes de perception pour l'IA dans les voitures auto-conduites.

ImageNet par rapport à d'autres ensembles de données

Si ImageNet est vaste et excellent pour les tâches de classification, d'autres ensembles de données répondent à des objectifs différents. Par exemple, l'ensemble de données COCO (Common Objects in Context) est largement utilisé pour la détection d'objets, la segmentation et le sous-titrage, et offre des annotations plus détaillées telles que des masques d'instance et des boîtes de délimitation pour moins de catégories d'objets qu'ImageNet. De même, Open Images V7 fournit des boîtes de délimitation pour un grand nombre de classes d'objets. Le choix d'un ensemble de données dépend souvent de la tâche spécifique de vision par ordinateur, telle que la classification, la détection ou la segmentation. L'exploration de divers ensembles de données de vision par ordinateur permet de sélectionner celui qui convient le mieux à un projet.

Tout lire