Glossaire

Détecteurs d'objets à un étage

Découvrez la rapidité et l'efficacité des détecteurs d'objets à un étage comme YOLO, idéaux pour les applications en temps réel telles que la robotique et la surveillance.

Les détecteurs d'objets en une étape sont une classe de modèles d'apprentissage profond conçus pour la vitesse et l'efficacité dans la vision par ordinateur. Ils effectuent la localisation et la classification des objets en un seul passage unifié du réseau neuronal. Cela contraste avec leurs homologues plus complexes, les détecteurs d'objets en deux étapes, qui décomposent la tâche en deux étapes distinctes. En traitant la détection d'objets comme un problème de régression simple, les modèles à une étape prédisent les boîtes de délimitation et les probabilités de classe directement à partir des caractéristiques de l'image, ce qui les rend exceptionnellement rapides et adaptés aux applications nécessitant une inférence en temps réel.

Fonctionnement des détecteurs à un étage

Un détecteur à un étage traite une image entière en une seule fois par l'intermédiaire d'un seul réseau neuronal convolutionnel (CNN). L'architecture du réseau est conçue pour effectuer plusieurs tâches simultanément. Tout d'abord, l'épine dorsale du réseau effectue l'extraction des caractéristiques, créant de riches représentations de l'image d'entrée à différentes échelles. Ces caractéristiques sont ensuite introduites dans une tête de détection spécialisée.

Cette tête est chargée de prédire un ensemble de boîtes de délimitation, un score de confiance pour chaque boîte indiquant la présence d'un objet et la probabilité que chaque objet appartienne à une classe spécifique. L'ensemble de ce processus se déroule en une seule passe avant, ce qui est la clé de leur vitesse élevée. Des techniques telles que la suppression non maximale (NMS) sont ensuite utilisées pour filtrer les détections redondantes et se chevauchant afin de produire le résultat final. Les modèles sont entraînés à l'aide d'une fonction de perte spécialisée qui combine la perte de localisation (précision de la boîte englobante) et la perte de classification (précision de la prédiction de la classe).

Comparaison avec les détecteurs d'objets à deux niveaux

La principale différence réside dans la méthodologie. Les détecteurs à un étage sont conçus pour être rapides et simples, tandis que les détecteurs à deux étages privilégient la précision, bien que cette distinction soit de moins en moins prononcée avec les nouveaux modèles.

  • Détecteurs à une étape: Ces modèles, tels que la famille YOLO (You Only Look Once), effectuent la détection en une seule étape. Ils sont généralement plus rapides et ont une architecture plus simple, ce qui les rend idéaux pour les appareils périphériques et les applications en temps réel. Le développement de détecteurs sans ancrage a encore amélioré leurs performances et leur simplicité.
  • Détecteurs d'objets à deux niveaux: Les modèles tels que la série R-CNN et ses variantes plus rapides génèrent d'abord un ensemble peu dense de propositions de régions où des objets pourraient se trouver. Dans un deuxième temps, un réseau distinct classe ces propositions et affine les coordonnées de la boîte de délimitation. Ce processus en deux étapes permet généralement d'obtenir une plus grande précision, en particulier pour les petits objets, mais au prix d'une vitesse d'inférence nettement plus lente. Le R-CNN du masque est un exemple bien connu qui étend cette approche à la segmentation des instances.

Architectures et modèles clés

Plusieurs architectures influentes à une étape ont été développées, chacune avec des contributions uniques :

  • YOLO (You Only Look Once): Introduit dans un article révolutionnaire de 2015, YOLO a présenté la détection d'objets comme un problème de régression unique. Les versions suivantes, y compris YOLOv8 et la version de pointe Ultralytics YOLO11, ont continuellement amélioré l'équilibre entre la vitesse et la précision.
  • Détecteur multi-boîtes à tir unique (SSD): L'architecture SSD est un autre modèle pionnier à une étape qui utilise des cartes de caractéristiques multi-échelles pour détecter des objets de différentes tailles, améliorant ainsi la précision par rapport à l'architecture YOLO d'origine.
  • RetinaNet: Ce modèle a introduit la perte focale, une nouvelle fonction de perte conçue pour remédier au déséquilibre extrême des classes rencontré lors de la formation des détecteurs denses, ce qui lui a permis de surpasser la précision de nombreux détecteurs en deux étapes à l'époque.
  • EfficientDet: Famille de modèles développés par Google Research qui se concentre sur l'extensibilité et l'efficacité en utilisant une méthode d'extensibilité composée et un nouveau réseau de caractéristiques BiFPN. Vous pouvez voir comment il se compare à d'autres modèles comme YOLO11 vs. EfficientDet.

Applications dans le monde réel

La vitesse et l'efficacité des détecteurs à un étage les ont rendus indispensables dans de nombreuses applications basées sur l'IA :

  1. Véhicules autonomes: Dans l'IA pour les voitures autonomes, les détecteurs à un étage sont essentiels pour percevoir l'environnement en temps réel. Ils peuvent identifier et suivre instantanément les piétons, les cyclistes, les autres véhicules et les panneaux de signalisation, ce qui permet au système de navigation du véhicule de prendre des décisions cruciales en une fraction de seconde. Des entreprises comme Tesla utilisent des principes similaires pour leurs systèmes Autopilot.
  2. Sécurité et surveillance intelligentes: Les modèles à une étape alimentent les systèmes de sécurité modernes en analysant les flux vidéo pour détecter les menaces telles que les entrées non autorisées ou les activités suspectes. Par exemple, un système peut être entraîné à compter les personnes dans une file d'attente pour la gestion des files d'attente ou à identifier les bagages abandonnés dans un aéroport, le tout en temps réel.

Avantages et limites

Le principal avantage des détecteurs à un étage est leur vitesse incroyable, qui permet la détection d'objets en temps réel sur une variété de matériel, y compris les dispositifs d'IA de pointe à faible consommation comme le NVIDIA Jetson ou le Raspberry Pi. Leur architecture plus simple, de bout en bout, facilite également leur formation et leur déploiement à l'aide de frameworks tels que PyTorch ou TensorFlow.

Historiquement, la principale limitation a été une précision inférieure à celle des détecteurs à deux niveaux, en particulier lorsqu'il s'agit d'objets très petits ou fortement occultés. Toutefois, les progrès récents dans l'architecture des modèles et les techniques d'apprentissage, comme le montrent des modèles tels que YOLO11, ont considérablement comblé cet écart de performance, offrant une combinaison puissante de vitesse et de précision élevée pour un large éventail de tâches de vision par ordinateur. Des plateformes comme Ultralytics HUB simplifient encore le processus de formation de modèles personnalisés pour des besoins spécifiques.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers