Découvrez la rapidité et l'efficacité des détecteurs d'objets à un étage comme YOLO, idéaux pour les applications en temps réel telles que la robotique et la surveillance.
Les détecteurs d'objets en une étape sont une classe de modèles d'apprentissage profond conçus pour la vitesse et l'efficacité dans la vision par ordinateur. Ils effectuent la localisation et la classification des objets en un seul passage unifié du réseau neuronal. Cela contraste avec leurs homologues plus complexes, les détecteurs d'objets en deux étapes, qui décomposent la tâche en deux étapes distinctes. En traitant la détection d'objets comme un problème de régression simple, les modèles à une étape prédisent les boîtes de délimitation et les probabilités de classe directement à partir des caractéristiques de l'image, ce qui les rend exceptionnellement rapides et adaptés aux applications nécessitant une inférence en temps réel.
Un détecteur à un étage traite une image entière en une seule fois par l'intermédiaire d'un seul réseau neuronal convolutionnel (CNN). L'architecture du réseau est conçue pour effectuer plusieurs tâches simultanément. Tout d'abord, l'épine dorsale du réseau effectue l'extraction des caractéristiques, créant de riches représentations de l'image d'entrée à différentes échelles. Ces caractéristiques sont ensuite introduites dans une tête de détection spécialisée.
Cette tête est chargée de prédire un ensemble de boîtes de délimitation, un score de confiance pour chaque boîte indiquant la présence d'un objet et la probabilité que chaque objet appartienne à une classe spécifique. L'ensemble de ce processus se déroule en une seule passe avant, ce qui est la clé de leur vitesse élevée. Des techniques telles que la suppression non maximale (NMS) sont ensuite utilisées pour filtrer les détections redondantes et se chevauchant afin de produire le résultat final. Les modèles sont entraînés à l'aide d'une fonction de perte spécialisée qui combine la perte de localisation (précision de la boîte englobante) et la perte de classification (précision de la prédiction de la classe).
La principale différence réside dans la méthodologie. Les détecteurs à un étage sont conçus pour être rapides et simples, tandis que les détecteurs à deux étages privilégient la précision, bien que cette distinction soit de moins en moins prononcée avec les nouveaux modèles.
Plusieurs architectures influentes à une étape ont été développées, chacune avec des contributions uniques :
La vitesse et l'efficacité des détecteurs à un étage les ont rendus indispensables dans de nombreuses applications basées sur l'IA :
Le principal avantage des détecteurs à un étage est leur vitesse incroyable, qui permet la détection d'objets en temps réel sur une variété de matériel, y compris les dispositifs d'IA de pointe à faible consommation comme le NVIDIA Jetson ou le Raspberry Pi. Leur architecture plus simple, de bout en bout, facilite également leur formation et leur déploiement à l'aide de frameworks tels que PyTorch ou TensorFlow.
Historiquement, la principale limitation a été une précision inférieure à celle des détecteurs à deux niveaux, en particulier lorsqu'il s'agit d'objets très petits ou fortement occultés. Toutefois, les progrès récents dans l'architecture des modèles et les techniques d'apprentissage, comme le montrent des modèles tels que YOLO11, ont considérablement comblé cet écart de performance, offrant une combinaison puissante de vitesse et de précision élevée pour un large éventail de tâches de vision par ordinateur. Des plateformes comme Ultralytics HUB simplifient encore le processus de formation de modèles personnalisés pour des besoins spécifiques.