Glossaire

Architectures de détection d'objets

Découvre la puissance des architectures de détection d'objets, l'épine dorsale de l'IA pour la compréhension des images. Apprends les types, les outils et les applications du monde réel dès aujourd'hui !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les architectures de détection d'objets sont les structures fondamentales qui sous-tendent la façon dont les systèmes d'intelligence artificielle (IA) interprètent les informations visuelles. Ces réseaux neuronaux spécialisés sont conçus non seulement pour classer les objets dans une image (identifier ce qui est présent) mais aussi pour les localiser avec précision, généralement en dessinant des boîtes de délimitation autour de chaque instance détectée. Pour ceux qui sont familiers avec les concepts de base de l 'apprentissage machine (ML), la compréhension de ces architectures est cruciale pour tirer parti des capacités de la vision par ordinateur (VA) moderne. Elles constituent l'épine dorsale des systèmes qui permettent aux machines de "voir" et de comprendre le monde d'une manière similaire à celle des humains.

Composantes essentielles

La plupart des architectures de détection d'objets sont constituées de plusieurs composants clés fonctionnant ensemble. Un réseau dorsal, souvent un réseau neuronal convolutif (CNN), effectue l'extraction initiale des caractéristiques de l'image d'entrée, en identifiant des motifs de bas niveau comme les bords et les textures, et des caractéristiques progressivement plus complexes. Un composant "cou" suit souvent, agrégeant les caractéristiques des différentes étapes du réseau dorsal pour créer des représentations plus riches adaptées à la détection d'objets à différentes échelles, un concept détaillé dans des ressources telles que l'article Feature Pyramid Network (réseau de pyramides de caractéristiques). Enfin, la tête de détection utilise ces caractéristiques pour prédire la classe et l'emplacement (coordonnées de la boîte englobante) des objets. Les performances sont souvent mesurées à l'aide de paramètres tels que Intersection over Union (IoU) pour évaluer la précision de la localisation et Mean Average Precision (mAP) pour la qualité globale de la détection. Des explications détaillées sont disponibles sur des sites tels que la page d'évaluation du jeu de données COCO.

Types d'architectures

Les architectures de détection d'objets sont largement classées en fonction de leur approche :

Distinguer les termes similaires

Il est important de différencier les architectures de détection d'objets des tâches connexes de vision par ordinateur :

  • Classification des images: Attribue une seule étiquette à une image entière (par exemple, "chat", "chien"). Elle identifie globalement ce qui se trouve dans l'image, mais pas l'emplacement d' objets spécifiques. Voir la documentation de la tâche de classificationUltralytics pour des exemples.
  • Segmentation sémantique: Classe chaque pixel d'une image dans une catégorie prédéfinie (par exemple, tous les pixels appartenant à des voitures sont étiquetés "voiture"). Elle fournit une prédiction dense mais ne permet pas de distinguer les différentes instances d'une même classe d'objets.
  • Segmentation des instances: Va plus loin que la segmentation sémantique en classant chaque pixel et en faisant la différence entre les instances d'objets individuels (par exemple, en étiquetant "voiture 1", "voiture 2"). Elle combine la détection d'objets et la segmentation sémantique. Consulte la documentation de la tâche de segmentationUltralytics pour plus de détails.

Applications dans le monde réel

Les architectures de détection d'objets alimentent de nombreuses applications d'IA dans divers secteurs :

Outils et technologies

Le développement et le déploiement de modèles basés sur ces architectures impliquent souvent des outils et des cadres spécialisés :

Tout lire