Glossaire

Détecteurs d'objets à deux niveaux

Découvre la puissance des détecteurs d'objets à deux étages - des solutions axées sur la précision pour une détection précise des objets dans les tâches complexes de vision par ordinateur.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les détecteurs d'objets en deux étapes représentent une catégorie d'architectures de détection d'objets en vision par ordinateur (VA) qui privilégient la précision en divisant le processus de détection en deux étapes distinctes. Ces détecteurs sont conçus pour identifier dans un premier temps les régions d'intérêt (RdI) d'une image où des objets pourraient être présents, puis, dans un deuxième temps, pour classer les objets dans ces régions proposées et affiner leur emplacement (boîtes de délimitation). Cette approche méthodique permet une analyse plus détaillée de chaque objet potentiel, ce qui se traduit souvent par une plus grande précision de détection, en particulier dans les scénarios complexes ou lors de la détection de petits objets.

Comment fonctionnent les détecteurs à deux niveaux

Le fonctionnement des détecteurs en deux étapes implique un processus séquentiel, mettant à profit les techniques d'apprentissage profond, en particulier les réseaux neuronaux convolutifs (CNN).

  1. Étape 1 : Proposition de région : La première étape utilise généralement un réseau de proposition de régions (RPN), un concept popularisé par le modèle R-CNN plus rapide. Le RPN analyse les caractéristiques de l'image (extraites par un CNN dorsal comme ResNet) et propose un ensemble de régions candidates susceptibles de contenir des objets. Ces propositions sont essentiellement des boîtes de délimitation grossières autour des objets potentiels.
  2. Étape 2 : classification et affinage : Les régions proposées (RdI) passent ensuite à la deuxième étape. Pour chaque RdI, des caractéristiques sont extraites (souvent à l'aide de techniques telles que RoIPool ou RoIAlign), et un réseau neuronal (RN) effectue deux tâches : classer l'objet dans la RdI (par exemple, "voiture", "personne", "arrière-plan") et affiner les coordonnées de la boîte englobante pour qu'elle corresponde plus précisément à l'objet. Parmi les exemples les plus connus, on peut citer la famille R-CNN(Qu'est-ce que R-CNN ?, R-CNN rapide, R-CNN plus rapide) et Mask R-CNN, qui étend cette approche pour effectuer une segmentation de l'instance.

Avantages et inconvénients

Les détecteurs à deux étages offrent des avantages distincts, mais comportent aussi des inconvénients :

Avantages :

  • Précision élevée : La séparation de la génération de propositions et de la classification/affinement permet un traitement plus ciblé, ce qui se traduit généralement par une plus grande précision, notamment mesurée par des métriques telles que la précision moyenne (mAP).
  • Meilleure localisation : L'étape d'affinage permet souvent d'obtenir des prédictions plus précises de la boîte englobante.
  • Efficace pour les petits objets : Ils peuvent être plus performants que les détecteurs à une étape pour identifier des objets plus petits dans une image grâce à la deuxième étape focalisée.

Inconvénients :

  • Vitesse plus lente : Le processus séquentiel en deux étapes nécessite intrinsèquement plus de temps de calcul, ce qui se traduit par une latence d'inférence plus faible par rapport aux méthodes en une étape. Cela les rend moins adaptées aux applications nécessitant une inférence en temps réel.
  • Complexité : L'architecture est généralement plus complexe à mettre en œuvre et à former.
  • Coût informatique plus élevé : Ils nécessitent généralement plus de ressources informatiques (comme les GPU) pour la formation et l'inférence.

Comparaison avec les détecteurs à un étage

La principale distinction réside dans l'architecture et l'approche. Les détecteurs d'objets à une étape, tels que le système Ultralytics YOLO d'Ultralytics (par ex, YOLOv8, YOLO11) et SSD, effectuent simultanément la localisation et la classification des objets en un seul passage dans le réseau. Ils sont donc nettement plus rapides. Le choix entre les détecteurs à une étape et les détecteurs à deux étapes implique souvent un compromis : donner la priorité à la vitesse (une étape) ou à une précision maximale (deux étapes). Alors que les détecteurs à une étape ont considérablement comblé l'écart de précision, les détecteurs à deux étapes conservent souvent un avantage dans les scénarios exigeant la plus grande précision.

Applications dans le monde réel

La grande précision des détecteurs à deux étages les rend précieux dans les applications où la précision est primordiale :

  • Analyse d'images médicales : Détection d'anomalies subtiles comme de petites tumeurs ou lésions dans les tomodensitogrammes ou les IRM, où une grande précision est essentielle pour le diagnostic. Des modèles tels que le R-CNN à masque ont été adaptés à de telles tâches dans le cadre de l'IA dans le domaine de la santé (voir l'exemple : R-CNN à masque dans le domaine de l'imagerie médicale).
  • Conduite autonome : Permettre aux systèmes de perception détaillés des véhicules autonomes de détecter et de classer avec précision divers objets comme les piétons, les véhicules et les panneaux de signalisation, même dans des environnements encombrés ou difficiles, contribuant ainsi à la sécurité globale dans le cadre de l'IA dans l'automobile.
  • Imagerie satellite à haute résolution : Analyse des images satellites détaillées pour l'identification précise d'objets, comme le suivi de types spécifiques de véhicules ou de changements d'infrastructure dans l'analyse d'images satellites.
  • Contrôle de la qualité dans la fabrication : Inspecter les produits pour détecter les défauts mineurs qui nécessitent une grande précision de localisation dans AI in Manufacturing. Des cadres tels que Detectron2 de Meta AI fournissent des implémentations de modèles populaires à deux étapes.
Tout lire