Découvrez la classification d'images avec Ultralytics YOLO : formez des modèles personnalisés pour la santé, l'agriculture, la vente au détail, etc. à l'aide d'outils de pointe.
La classification des images est une tâche fondamentale de la vision par ordinateur (VA) qui consiste à attribuer une étiquette unique et spécifique à une image entière à partir d'un ensemble prédéfini de catégories. L'objectif principal est d'identifier le sujet principal d'une image et de la classer en conséquence. Par exemple, un modèle de classification analyse une image et lui attribue une étiquette telle que "chat", "chien" ou "voiture". Cette tâche est à la base de nombreuses applications CV plus complexes et constitue un élément essentiel de l'apprentissage automatique. Le processus s'appuie sur des algorithmes, notamment les réseaux neuronaux convolutifs (CNN), pour apprendre des caractéristiques distinctives à partir de vastes ensembles de données étiquetées.
La classification des images est utilisée dans de nombreux secteurs pour automatiser et étendre les tâches de reconnaissance visuelle. En voici deux exemples marquants :
Bien qu'elle soit étroitement liée à d'autres tâches de vision par ordinateur, la classification d'images a un objectif distinct. Il est important de la différencier de :
En résumé, la classification indique ce qui se trouve dans une image, la détection indique quoi et où, et la segmentation fournit une carte détaillée, au niveau des pixels, de tout ce qui se trouve dans la scène.
Bien que réputés pour la détection d'objets, les modèles YOLO d'Ultralytics excellent également dans les tâches de classification d'images. Les modèles de pointe comme YOLO11 peuvent être facilement entraînés ou affinés sur des ensembles de données personnalisés à l'aide du logiciel intuitif Ultralytics Python ou de la plateforme sans code Ultralytics HUB.
Notre documentation fournit des ressources étendues, y compris des conseils pour l'entraînement des modèles et un guide détaillé sur l'utilisation de YOLO11 pour la classification d'images. Les développeurs peuvent utiliser des modèles pré-entraînés sur des ensembles de données de référence comme ImageNet, CIFAR-100 et Caltech-101 ou entraîner un nouveau modèle à partir de zéro. Pour ceux qui s'intéressent aux dernières avancées, des ressources telles que Papers With Code offrent un aperçu complet des modèles les plus performants. Vous pouvez également comparer les performances des modèles YOLO avec des critères de référence standard. Des frameworks tels que PyTorch et TensorFlow constituent la base de la construction et de l'entraînement de ces modèles.
Comment fonctionne la classification des images ?
Les modèles de classification d'images sont formés à l'aide de l'apprentissage supervisé, où ils sont alimentés par un grand nombre d'images qui ont déjà été étiquetées manuellement avec la bonne classe. Au cours de la formation, le réseau neuronal apprend à identifier les motifs, les textures, les formes et les combinaisons de couleurs associés à chaque catégorie. Cet apprentissage est réalisé grâce à un processus appelé rétropropagation, qui ajuste les paramètres internes du modèle, ou poids, afin de minimiser la différence entre ses prédictions et les étiquettes réelles.
Les modèles de classification modernes utilisent souvent des architectures d'apprentissage profond comportant de nombreuses couches. Les premières couches peuvent apprendre à reconnaître des caractéristiques simples comme les bords et les coins, tandis que les couches plus profondes les combinent pour identifier des structures plus complexes comme les yeux, les roues ou les visages. La dernière couche du réseau utilise généralement une fonction softmax pour produire un score de probabilité pour chaque classe possible. La classe ayant la probabilité la plus élevée est choisie comme prédiction finale. La clé de ce processus est l'extraction de caractéristiques, où le modèle apprend automatiquement les caractéristiques les plus informatives pour la tâche de classification.