Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Détecteurs d'objets à deux étapes

Découvrez le fonctionnement des détecteurs d'objets en deux étapes, en mettant l'accent sur les propositions de régions et la classification. Découvrez pourquoi les modèles modernes tels que Ultralytics sont désormais leaders.

Les détecteurs d'objets à deux étapes sont une classe sophistiquée d' architectures d'apprentissage profond (DL) utilisées en vision par ordinateur pour identifier et localiser des éléments dans une image. Contrairement à leurs homologues à une seule étape, qui effectuent la détection en un seul passage, ces modèles divisent la tâche en deux phases distinctes : la proposition de région et la classification d'objets. Cette approche bifurquée a été mise au point pour privilégier une grande précision de localisation, ce qui a rendu ces détecteurs historiquement importants dans l'évolution de l' intelligence artificielle (IA). En séparant le « où » du « quoi », les détecteurs à deux étapes atteignent souvent une précision supérieure, en particulier sur les objets petits ou occultés, bien que cela se fasse généralement au prix d'une augmentation des ressources informatiques et d'un ralentissement de la latence d'inférence.

Le processus en deux étapes

L'architecture d'un détecteur à deux niveaux repose sur un flux de travail séquentiel qui imite la façon dont un humain pourrait soigneusement examiner une scène.

  1. Proposition de région : dans un premier temps, le modèle analyse l'image d'entrée afin d'identifier les zones potentielles où des objets pourraient se trouver. Un composant appelé réseau de proposition de région (RPN) génère un ensemble clairsemé de boîtes candidates , souvent appelées régions d'intérêt (RoI). Cette étape filtre la majeure partie de l'arrière-plan, permettant ainsi au réseau de concentrer sa puissance de traitement sur les zones pertinentes.
  2. Classification et affinement : dans un deuxième temps, le modèle extrait les caractéristiques de ces régions candidates à l'aide de réseaux neuronaux convolutifs (CNN). Il attribue ensuite une étiquette de classe spécifique (par exemple, « personne », « véhicule ») à chaque région et affine les coordonnées du cadre de sélection afin d' englober étroitement l'objet.

Parmi les exemples les plus connus de cette architecture, on peut citer la famille R-CNN, en particulier Faster R-CNN et Mask R-CNN, qui ont établi la norme en matière de références académiques pendant plusieurs années.

Comparaison avec les détecteurs à un seul étage

Il est utile de distinguer les modèles à deux étapes des détecteurs d'objets à une seule étape, tels que le Single Shot MultiBox Detector (SSD) et laYOLO Ultralytics YOLO . Alors que les modèles à deux étapes privilégient la précision en traitant les régions séparément, les modèles à une seule étape considèrent la détection comme un problème de régression unique, en mappant directement les pixels de l'image aux coordonnées du cadre de sélection et aux probabilités de classe.

Historiquement, cela créait un compromis : les modèles en deux étapes étaient plus précis mais plus lents, tandis que les modèles en une seule étape étaient plus rapides mais moins précis. Cependant, les progrès modernes ont estompé cette distinction. Les modèles de pointe tels que YOLO26 utilisent désormais des architectures de bout en bout qui rivalisent avec la précision des détecteurs en deux étapes tout en conservant la vitesse nécessaire à l' inférence en temps réel.

Applications concrètes

En raison de l'importance qu'ils accordent à la précision et au rappel, les détecteurs à deux étapes sont souvent préférés dans les scénarios où la sécurité et le détail sont plus importants que la vitesse de traitement brute.

  • Imagerie médicale diagnostique : dans le domaine de l' IA appliquée aux soins de santé, un diagnostic erroné peut avoir des conséquences critiques. Les architectures à deux niveaux sont fréquemment utilisées dans l' analyse d'images médicales pour detect telles que des tumeurs sur des radiographies ou des IRM. Ce processus en plusieurs étapes permet de s'assurer que les petites lésions ne sont pas négligées sur des tissus complexes, offrant ainsi aux radiologues une assistance automatisée hautement fiable.
  • Inspection industrielle de haute précision : dans le domaine de la fabrication intelligente, les systèmes d'inspection visuelle automatisés utilisent ces modèles pour identifier les défauts microscopiques sur les chaînes de montage. Par exemple, la détection d'une fissure capillaire dans une aube de turbine nécessite la haute précision de l'intersection sur l'union (IoU) fournie par les détecteurs à deux niveaux, garantissant que seuls les composants sans défaut passent à l'étape suivante de la production.

Mise en œuvre d'une détection moderne

Alors que les détecteurs à deux étapes ont jeté les bases d'une vision haute précision, les développeurs modernes utilisent souvent des modèles avancés à une seule étape qui offrent des performances comparables avec des workflows de déploiement nettement plus simples. Ultralytics simplifie la formation et le déploiement de ces modèles, en gérant efficacement les ensembles de données et les ressources de calcul.

Python suivant montre comment charger et exécuter une inférence à l'aide d'un workflow moderne de détection d'objets avec ultralytics, obtenant des résultats très précis similaires aux approches traditionnelles en deux étapes, mais avec une plus grande efficacité :

from ultralytics import YOLO

# Load the YOLO26 model, a modern high-accuracy detector
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Process results (bounding boxes, classes, and confidence scores)
for result in results:
    result.show()  # Display the detection outcomes
    print(result.boxes.conf)  # Print confidence scores

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant