Découvrez le fonctionnement des détecteurs d'objets en deux étapes, en mettant l'accent sur les propositions de régions et la classification. Découvrez pourquoi les modèles modernes tels que Ultralytics sont désormais leaders.
Les détecteurs d'objets à deux étapes sont une classe sophistiquée d' architectures d'apprentissage profond (DL) utilisées en vision par ordinateur pour identifier et localiser des éléments dans une image. Contrairement à leurs homologues à une seule étape, qui effectuent la détection en un seul passage, ces modèles divisent la tâche en deux phases distinctes : la proposition de région et la classification d'objets. Cette approche bifurquée a été mise au point pour privilégier une grande précision de localisation, ce qui a rendu ces détecteurs historiquement importants dans l'évolution de l' intelligence artificielle (IA). En séparant le « où » du « quoi », les détecteurs à deux étapes atteignent souvent une précision supérieure, en particulier sur les objets petits ou occultés, bien que cela se fasse généralement au prix d'une augmentation des ressources informatiques et d'un ralentissement de la latence d'inférence.
L'architecture d'un détecteur à deux niveaux repose sur un flux de travail séquentiel qui imite la façon dont un humain pourrait soigneusement examiner une scène.
Parmi les exemples les plus connus de cette architecture, on peut citer la famille R-CNN, en particulier Faster R-CNN et Mask R-CNN, qui ont établi la norme en matière de références académiques pendant plusieurs années.
Il est utile de distinguer les modèles à deux étapes des détecteurs d'objets à une seule étape, tels que le Single Shot MultiBox Detector (SSD) et laYOLO Ultralytics YOLO . Alors que les modèles à deux étapes privilégient la précision en traitant les régions séparément, les modèles à une seule étape considèrent la détection comme un problème de régression unique, en mappant directement les pixels de l'image aux coordonnées du cadre de sélection et aux probabilités de classe.
Historiquement, cela créait un compromis : les modèles en deux étapes étaient plus précis mais plus lents, tandis que les modèles en une seule étape étaient plus rapides mais moins précis. Cependant, les progrès modernes ont estompé cette distinction. Les modèles de pointe tels que YOLO26 utilisent désormais des architectures de bout en bout qui rivalisent avec la précision des détecteurs en deux étapes tout en conservant la vitesse nécessaire à l' inférence en temps réel.
En raison de l'importance qu'ils accordent à la précision et au rappel, les détecteurs à deux étapes sont souvent préférés dans les scénarios où la sécurité et le détail sont plus importants que la vitesse de traitement brute.
Alors que les détecteurs à deux étapes ont jeté les bases d'une vision haute précision, les développeurs modernes utilisent souvent des modèles avancés à une seule étape qui offrent des performances comparables avec des workflows de déploiement nettement plus simples. Ultralytics simplifie la formation et le déploiement de ces modèles, en gérant efficacement les ensembles de données et les ressources de calcul.
Python suivant montre comment charger et exécuter une inférence à l'aide d'un workflow moderne de détection d'objets avec
ultralytics, obtenant des résultats très précis similaires aux approches traditionnelles en deux étapes, mais avec une plus grande
efficacité :
from ultralytics import YOLO
# Load the YOLO26 model, a modern high-accuracy detector
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Process results (bounding boxes, classes, and confidence scores)
for result in results:
result.show() # Display the detection outcomes
print(result.boxes.conf) # Print confidence scores