Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

ImageNet

Découvrez ImageNet, l'ensemble de données fondamental du deep learning. Découvrez comment il alimente Ultralytics via l'apprentissage par transfert pour une classification d'images haute précision.

ImageNet une base de données visuelle monumentale conçue pour être utilisée dans la recherche sur les logiciels de reconnaissance visuelle d'objets. Elle est largement considérée comme le catalyseur qui a déclenché la révolution moderne de l' apprentissage profond. Organisée selon la hiérarchie WordNet, ImageNet des millions d'images étiquetées dans des milliers de catégories, fournissant ainsi l'énorme quantité de données nécessaire à l'entraînement de réseaux neuronaux sophistiqués. Pour les chercheurs et les développeurs en vision par ordinateur, ImageNet de référence standard pour évaluer les performances des algorithmes, en particulier dans des tâches telles que la classification d'images et la localisation d'objets.

ImageNet et l'essor des CNN

Cet ensemble de données a acquis une renommée mondiale grâce au concoursImageNet Scale Visual Recognition Challenge (ILSVRC), organisé chaque année entre 2010 et 2017. Ce concours exigeait des algorithmes qu'classify dans l'une des 1 000 catégories avec une grande précision. Un tournant historique s'est produit en 2012 lorsqu'un réseau neuronal convolutif (CNN) appelée AlexNet a atteint un taux d'erreur nettement inférieur à celui de ses concurrents. Cette victoire a démontré la supériorité des réseaux neuronaux profonds par rapport aux méthodes traditionnelles d'extraction de caractéristiques, marquant ainsi le début de l'ère actuelle de l'IA. Aujourd'hui, des architectures de pointe telles que Ultralytics continuent de s'appuyer sur les principes fondamentaux établis lors de ces défis.

Le rôle de la préformation et de l'apprentissage par transfert

L'une des contributions les plus significatives ImageNet son rôle dans l' apprentissage par transfert. Former un réseau neuronal profond à partir de zéro nécessite d'énormes ressources informatiques et de grandes quantités de données d'apprentissage. Pour contourner cela, les développeurs utilisent souvent des « modèles pré-entraînés », c'est-à-dire des réseaux qui ont déjà appris à extraire des représentations riches de caractéristiques à partir d' ImageNet.

Lorsqu'un modèle est pré-entraîné sur ImageNet, il apprend à identifier des éléments visuels fondamentaux tels que les contours, les textures et les formes. Les poids ainsi appris peuvent ensuite être affinés sur un ensemble de données plus petit et spécifique à une autre tâche. Ce processus accélère considérablement les cycles de développement et améliore les performances, en particulier lorsque l'on utilise des outils tels que Ultralytics pour l'entraînement de modèles personnalisés.

Applications concrètes

L'influence ImageNet bien au-delà de la recherche universitaire pour toucher les systèmes d'IA pratiques et quotidiens :

  • Caisse automatisée dans le commerce de détail : les systèmes qui identifient automatiquement les produits ou les marchandises dans une borne de caisse automatique s'appuient sur des capacités de classification perfectionnées à partir d'ensembles de données massifs tels ImageNet. En distinguant les articles visuellement similaires (par exemple, différents types de pommes), ces systèmes rationalisent l' IA dans le commerce de détail.
  • Modération de contenu : les plateformes de réseaux sociaux utilisent la reconnaissance visuelle pour analyser automatiquement des millions d' images téléchargées à la recherche de contenu inapproprié. La capacité fondamentale à reconnaître des objets et des scènes provient souvent de backbones initialement entraînés sur ImageNet .

ImageNet COCO CIFAR-10

Bien ImageNet la référence en matière de classification, il est important de le distinguer d'autres ensembles de données populaires :

  • ImageNet COCO: Le jeu de données COCO Common Objects in Context) est la principale référence en matière de détection et de segmentation d'objets. Alors ImageNet « ce qui » se trouve dans l'image (classification), COCO sur « où » se trouvent les objets et leurs contours précis.
  • ImageNet CIFAR-10 : CIFAR-10 est un ensemble de données beaucoup plus petit, composé de minuscules images de 32 x 32 pixels. Il est souvent utilisé pour le prototypage rapide ou à des fins éducatives, tandis qu ImageNet ImageNet représente un défi de niveau professionnel et de haute résolution pour les modèles prêts à la production.

Utilisation des modèles pré-entraînés d ImageNet

Les frameworks d'IA modernes permettent aux utilisateurs de tirer parti sans effort ImageNet . L'exemple ci-dessous montre comment charger un modèle de classification YOLO26, pré-entraîné sur ImageNet, pour classify image.

from ultralytics import YOLO

# Load a YOLO26 classification model pre-trained on ImageNet
model = YOLO("yolo26n-cls.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the top prediction class name
print(f"Top Class: {results[0].names[results[0].probs.top1]}")

Cet extrait utilise la fonction yolo26n-cls.pt modèle, qui a appris les 1 000 ImageNet , ce qui lui permet de reconnaître instantanément le contenu de l'image saisie sans formation supplémentaire.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant