Glossaire

Architectures de détection d'objets

Découvre la puissance des architectures de détection d'objets, l'épine dorsale de l'IA pour la compréhension des images. Apprends les types, les outils et les applications du monde réel dès aujourd'hui !

Les architectures de détection d'objets sont les structures fondamentales qui sous-tendent la façon dont les systèmes d'intelligence artificielle (IA) interprètent les informations visuelles. Ces réseaux neuronaux spécialisés sont conçus non seulement pour classer les objets dans une image (identifier ce qui est présent) mais aussi pour les localiser avec précision, généralement en dessinant des boîtes de délimitation autour de chaque instance détectée. Pour ceux qui sont familiers avec les concepts de base de l 'apprentissage machine (ML), la compréhension de ces architectures est cruciale pour tirer parti des capacités de la vision par ordinateur (VA) moderne. Elles constituent l'épine dorsale des systèmes qui permettent aux machines de "voir" et de comprendre le monde d'une manière similaire à celle des humains.

Composantes essentielles

La plupart des architectures de détection d'objets sont constituées de plusieurs composants clés fonctionnant ensemble. Un réseau dorsal, souvent un réseau neuronal convolutif (CNN), effectue l'extraction initiale des caractéristiques de l'image d'entrée, en identifiant des motifs de bas niveau comme les bords et les textures, et des caractéristiques progressivement plus complexes. Un composant "cou" suit souvent, agrégeant les caractéristiques des différentes étapes du réseau dorsal pour créer des représentations plus riches adaptées à la détection d'objets à différentes échelles, un concept détaillé dans des ressources telles que l'article Feature Pyramid Network (réseau de pyramides de caractéristiques). Enfin, la tête de détection utilise ces caractéristiques pour prédire la classe et l'emplacement (coordonnées de la boîte englobante) des objets. Les performances sont souvent mesurées à l'aide de paramètres tels que Intersection over Union (IoU) pour évaluer la précision de la localisation et Mean Average Precision (mAP) pour la qualité globale de la détection. Des explications détaillées sont disponibles sur des sites tels que la page d'évaluation du jeu de données COCO.

Types d'architectures

Les architectures de détection d'objets sont largement classées en fonction de leur approche :

Détecteurs en deux étapes: Ces modèles proposent d'abord des régions d'intérêt (RdI) où des objets pourraient se trouver, puis classifient et affinent la boîte de délimitation pour chaque RdI. Les exemples incluent la famille R-CNN, telle que Faster R-CNN. Ils sont souvent très précis mais peuvent être très gourmands en ressources informatiques.
Détecteurs à une étape: Ces modèles prédisent directement les boîtes de délimitation et les probabilités de classe à partir de l'image d'entrée en un seul passage, en sautant l'étape de proposition de région. Parmi les exemples, on peut citer le Single Shot MultiBox Detector (SSD) et le modèle Ultralytics YOLO d'Ultralytics. Ils offrent généralement des vitesses d'inférence en temps réel plus rapides, ce qui les rend adaptés aux applications nécessitant des réponses rapides. Les détecteurs modernes à un étage comme YOLO11 emploient souvent des techniques sans ancrage, ce qui simplifie la conception par rapport aux anciennes méthodes basées sur l'ancrage. Tu peux explorer les comparaisons entre différents modèles YOLO pour voir leur évolution.

Distinguer les termes similaires

Il est important de différencier les architectures de détection d'objets des tâches connexes de vision par ordinateur :

Classification des images: Attribue une seule étiquette à une image entière (par exemple, "chat", "chien"). Elle identifie globalement ce qui se trouve dans l'image, mais pas l'emplacement d' objets spécifiques. Voir la documentation de la tâche de classificationUltralytics pour des exemples.
Segmentation sémantique: Classe chaque pixel d'une image dans une catégorie prédéfinie (par exemple, tous les pixels appartenant à des voitures sont étiquetés "voiture"). Elle fournit une prédiction dense mais ne permet pas de distinguer les différentes instances d'une même classe d'objets.
Segmentation des instances: Va plus loin que la segmentation sémantique en classant chaque pixel et en faisant la différence entre les instances d'objets individuels (par exemple, en étiquetant "voiture 1", "voiture 2"). Elle combine la détection d'objets et la segmentation sémantique. Consulte la documentation de la tâche de segmentationUltralytics pour plus de détails.

Applications dans le monde réel

Les architectures de détection d'objets alimentent de nombreuses applications d'IA dans divers secteurs :

Véhicules autonomes: Essentiel pour que les voitures autonomes perçoivent leur environnement en détectant les piétons, les autres véhicules, les panneaux de signalisation et le marquage des voies. Des entreprises comme Waymo s'appuient fortement sur une détection sophistiquée des objets. En savoir plus sur l'IA dans les voitures autonomes.
Sécurité et surveillance : Utilisé dans les systèmes de sécurité pour détecter les accès non autorisés, surveiller les foules en cas d'activité inhabituelle ou mettre en œuvre la reconnaissance faciale. Voir le guideUltralytics sur les systèmes d'alarme de sécurité pour un exemple pratique.
Analyse d'images médicales: Aide les radiologues à détecter des anomalies comme des tumeurs ou des fractures dans les radiographies, les tomodensitogrammes et les IRM. Explore les solutions d'IA dans le domaine de la santé et les applications spécifiques comme la détection des tumeurs en utilisant YOLO11.
Retail Analytics : Permet des applications telles que la caisse automatisée, la surveillance des rayons et l'IA pour la gestion des stocks.

Outils et technologies

Le développement et le déploiement de modèles basés sur ces architectures impliquent souvent des outils et des cadres spécialisés :

Cadres d'apprentissage profond : Bibliothèques comme PyTorch (visite le site officiel dePyTorch ) et TensorFlow (voir le site Web deTensorFlow ) fournissent les éléments de base.
Bibliothèques de vision par ordinateur : OpenCV (site officiel : OpenCV.org) offre un large éventail de fonctions pour le traitement et la manipulation des images.
Modèles et plateformes : Ultralytics fournit des modèlesUltralytics YOLO de pointe et la plateforme Ultralytics HUB, ce qui simplifie le processus de formation des modèles personnalisés, la gestion des ensembles de données(comme COCO) et le déploiement des solutions.
Source ouverte : De nombreuses architectures et outils de détection d'objets sont développés sous licence open-source, ce qui favorise la collaboration et l'innovation au sein de la communauté de l'IA. Des ressources comme GitHub hébergent de nombreux projets dans ce domaine.

Architectures de détection d'objets

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Composantes essentielles

Types d'architectures

Distinguer les termes similaires

Applications dans le monde réel

Outils et technologies

Lire plus de blogs

Rejoins la communauté Ultralytics

Architectures de détection d'objets

Entraîne les modèles YOLO simplementavec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Composantes essentielles

Types d'architectures

Distinguer les termes similaires

Applications dans le monde réel

Outils et technologies

Lire plus de blogs

Rejoins la communauté Ultralytics

Entraîne les modèles YOLO simplement
avec Ultralytics HUB