Les détecteurs d'objets en deux étapes représentent une classe d'architectures de détection d'objets connues pour leur grande précision, en particulier dans les scènes complexes. Contrairement à leurs homologues, ces détecteurs décomposent la tâche de détection d'objets en deux étapes distinctes : premièrement, l'identification des régions potentielles d'une image qui pourraient contenir des objets (proposition de région), et deuxièmement, la classification des objets dans ces régions proposées et l'affinement de leur emplacement à l'aide de boîtes de délimitation. Cette approche méthodique permet une analyse détaillée mais se fait souvent au détriment de la vitesse de calcul par rapport à d'autres méthodes. Ces modèles sont la pierre angulaire de l'évolution de la vision par ordinateur (VA).
Caractéristiques principales
Les détecteurs à deux étages se caractérisent principalement par :
- Haute précision : La séparation de la génération de propositions et de la classification/affinement permet à la deuxième étape de concentrer ses ressources sur un ensemble plus restreint de régions prometteuses, ce qui conduit souvent à une plus grande précision de localisation et de classification. Ces méthodes ont tendance à donner de bons résultats sur les petits objets et dans les scènes encombrées. Les performances sont souvent mesurées à l'aide de paramètres tels que la précision moyenne (mAP) et l'intersection sur l'union (IoU).
- Vitesse d'inférence plus lente : Le traitement de l'image en deux étapes distinctes, en particulier avec les frais généraux liés à la génération et au traitement individuel de nombreuses propositions de régions, rend ces détecteurs plus intensifs en termes de calcul et généralement plus lents que les détecteurs d'objets en une seule étape. Cela peut limiter leur utilisation dans les applications nécessitant une inférence en temps réel.
Comparaison avec les détecteurs à un étage
La principale distinction réside dans le pipeline opérationnel. Les détecteurs à une étape, tels que le Ultralytics YOLO d'Ultralytics (y compris des modèles comme YOLO11 et YOLOv8) et SSD (Single Shot MultiBox Detector), prédisent directement les boîtes de délimitation et les probabilités de classe à partir de l'image complète en un seul passage dans le réseau. Ils traitent la détection d'objets comme un problème de régression. Cette approche unifiée offre des avantages considérables en termes de rapidité, ce qui les rend adaptés aux applications en temps réel. Cependant, ils ont toujours eu des difficultés à égaler la précision des détecteurs en deux étapes, en particulier pour les petits objets, bien que cet écart se soit considérablement réduit grâce aux progrès modernes. Tu peux explorer les comparaisons entre les différents modèles de détection d'objets pour plus de détails.
Architectures remarquables
L'évolution des détecteurs à deux étages comprend plusieurs modèles influents :
- R-CNN (régions avec caractéristiques CNN) : Le travail pionnier qui combinait les propositions de régions avec les caractéristiques CNN, mais qui était lent en raison du traitement indépendant de chaque région.
- R-CNN rapide : Amélioration de la vitesse en partageant le calcul entre les propositions à l'aide du RoIPooling sur une carte de caractéristiques convolutives partagée.(Article sur le R-CNN rapide)
- R-CNN plus rapide : Accroît encore la vitesse et l'élégance en intégrant l'étape de proposition de région dans le réseau via le R-CNN, créant ainsi un système formable presque de bout en bout.
- Masque R-CNN : Extended Faster R-CNN to perform instance segmentation by adding a branch to predict segmentation masks for each detected object.(Article sur le R-CNN desmasques)
Applications dans le monde réel
La grande précision des détecteurs à deux étages les rend précieux dans les scénarios où la précision est primordiale :
- Analyse d'images médicales : La détection d'anomalies subtiles comme les petites tumeurs, les lésions ou les polypes dans les scanners médicaux (CT, IRM) nécessite une grande précision pour faciliter le diagnostic. Une localisation précise est essentielle pour la planification du traitement. En savoir plus sur l'IA dans les soins de santé et la recherche dans des revues comme Radiology : Artificial Intelligence. Tu peux explorer des ensembles de données tels que l'ensemble de données sur les tumeurs cérébrales pour des tâches connexes.
- Conduite autonome : Détecter et localiser avec précision les piétons, les cyclistes, les autres véhicules et les panneaux de signalisation, en particulier ceux qui sont petits ou partiellement occultés, est crucial pour les systèmes de sécurité des voitures autonomes. Des entreprises comme Waymo s'appuient fortement sur des systèmes de perception robustes.
- Compréhension détaillée de la scène : Les applications qui nécessitent une compréhension fine des interactions entre les objets ou un comptage précis bénéficient d'une plus grande précision.
- Contrôle de la qualité dans la fabrication : L'identification de petits défauts ou la vérification du placement des composants dans des assemblages complexes exigent souvent une grande précision. En savoir plus sur l'IA dans la fabrication.
La formation de ces modèles implique généralement de grands ensembles de données étiquetées, tels que l'ensemble de données COCO, et un réglage minutieux. Ultralytics fournit des ressources pour l'entraînement des modèles et la compréhension des mesures de performance. Bien qu'Ultralytics se concentre sur les modèles efficaces à une étape comme Ultralytics YOLO, la compréhension des détecteurs à deux étapes fournit un contexte précieux dans le domaine plus large de la détection d'objets.
Comment fonctionnent les détecteurs à deux niveaux
Le fonctionnement d'un détecteur à deux étapes implique un pipeline séquentiel, qui s'appuie généralement sur des réseaux neuronaux profonds (NN), plus précisément des réseaux neuronaux convolutionnels (CNN), pour l'extraction des caractéristiques.