Glossaire

Tête de détection

Découvre le rôle essentiel des têtes de détection dans la détection des objets, en affinant les cartes de caractéristiques pour repérer avec précision les emplacements et les classes d'objets.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Dans l'architecture des modèles de détection d'objets, la tête de détection est un composant crucial généralement situé à la fin du pipeline du réseau. Après l'épine dorsale (qui extrait les caractéristiques initiales) et le cou (qui agrège et affine ces caractéristiques), la tête de détection prend les informations d'image traitées, connues sous le nom de cartes de caractéristiques, et les traduit en prédictions finales. Elle sert essentiellement d'unité décisionnelle au modèle d'apprentissage profond, en identifiant les objets présents, leur emplacement via les boîtes englobantes, et en attribuant un score de confiance à chaque détection.

Fonctionnalité et fonctionnement

La tête de détection traite les caractéristiques riches et abstraites générées par les couches précédentes du réseau neuronal. Ces caractéristiques codent des motifs, des textures et des formes complexes correspondant à des objets potentiels dans l'image d'entrée. La tête utilise généralement son propre ensemble de couches, comprenant souvent des couches de convolution, pour effectuer deux tâches principales :

  1. Classification : Prédire l'étiquette de classe pour chaque objet détecté (par exemple, "personne", "voiture", "chien"). Pour ce faire, on utilise souvent des techniques qui aboutissent à une Softmax ou à une fonction d'activation similaire afin d'obtenir des probabilités pour chaque classe.
  2. Localisation (régression) : Prédire les coordonnées précises de la boîte englobante qui entoure chaque objet détecté. Ce problème est traité comme un problème de régression.

Modèles avancés comme Ultralytics YOLO intègrent des têtes de détection très efficaces conçues pour effectuer ces tâches rapidement, ce qui permet une inférence en temps réel cruciale pour de nombreuses applications. Les prédictions sont souvent post-traitées à l'aide de techniques telles que la suppression non maximale (NMS) pour éliminer les détections en double.

Composants clés et variations

La conception des têtes de détection varie considérablement en fonction de l'architecture spécifique de détection des objets. Les principales variations comprennent :

  • Ancré ou non ancré :
    • Les détecteurs basés sur les ancres, courants dans les modèles tels que Faster R-CNN et les versions antérieures de YOLO , s'appuient sur un ensemble prédéfini de boîtes d'ancrage de différentes tailles et de différents rapports d'aspect à différents endroits de la carte des caractéristiques. La tête prédit des décalages pour affiner ces ancres et classifie l'objet à l'intérieur de celles-ci.
    • Les détecteurs sans ancrage, utilisés dans les modèles tels que YOLO11 et FCOS, prédisent directement les propriétés des objets comme les points centraux et les dimensions sans ancres prédéfinies. Cette approche peut simplifier la conception et potentiellement améliorer la généralisation, comme le soulignent les avantages de la détection sans ancrage.
  • Têtes couplées ou découplées : Certaines conceptions utilisent un seul ensemble de couches (tête couplée) pour la classification et la régression, tandis que d'autres utilisent des branches séparées (tête découplée) pour chaque tâche, ce qui peut parfois améliorer la précision. Les modules de tête Ultralytics peuvent être explorés plus en détail dans la documentation de l'API.

Comparaison avec d'autres composants et tâches

Pour comprendre la tête de détection, il faut la distinguer des autres parties d'un modèle de vision par ordinateur (VA) et des tâches connexes :

  • Réseau principal : Le réseau dorsal (par exemple, ResNet, VGG) est responsable de l'extraction initiale des caractéristiques de l'image d'entrée, en apprenant les caractéristiques hiérarchiques des bords de bas niveau aux parties d'objet de haut niveau.
  • Cou : Positionné entre la colonne vertébrale et la tête, le cou agrège souvent des caractéristiques provenant de plusieurs échelles de la colonne vertébrale (à l'aide de techniques telles que les réseaux de pyramides de caractéristiques) afin de fournir un contexte plus riche pour la détection d'objets de différentes tailles.
  • Classification des images : Contrairement à la détection d'objets, la classification d'images attribue une seule étiquette à l'ensemble de l'image sans localisation.
  • Tâches de segmentation : La segmentation sémantique classe chaque pixel de l'image, tandis que la segmentation par instance va plus loin en distinguant différentes instances de la même classe d'objets au niveau du pixel. La détection d'objets fournit des boîtes de délimitation, et non des masques de pixels.

Applications dans le monde réel

L'efficacité de la tête de détection influence directement les performances de nombreuses applications d'IA construites sur la détection d'objets :

  1. Conduite autonome : Les têtes de détection sont essentielles dans l'IA des voitures autonomes pour identifier et localiser les piétons, les autres véhicules, les panneaux de signalisation et les obstacles en temps réel, ce qui permet de naviguer en toute sécurité. Des entreprises comme Waymo s'appuient fortement sur cette technologie.
  2. Sécurité et surveillance : Dans les systèmes de sécurité, les têtes de détection permettent une surveillance automatisée en identifiant les personnes non autorisées, les objets abandonnés ou des événements spécifiques dans les flux vidéo. Cela constitue la base d'applications telles que le guide du système d'alarme de sécuritéUltralytics .
  3. Analyse de la vente au détail : Utilisées pour la gestion des stocks, le suivi des rayons et l'analyse du comportement des clients.
  4. Imagerie médicale : Aider les radiologues en détectant les anomalies comme les tumeurs ou les fractures dans les scanners, contribuer à l'analyse des images médicales.
  5. Fabrication : Permettre le contrôle de la qualité dans la fabrication en détectant automatiquement les défauts des produits sur les chaînes de montage.

Les modèles modernes de détection d'objets comme YOLOv8 et YOLO11Les modèles de détection d'objets modernes, comme YOLOv8 et YOLO11, sont souvent construits à l'aide de cadres comme PyTorch ou TensorFlowLes modèles YOLO11, souvent construits à l'aide de frameworks comme PyTorch ou TensorFlow, sont dotés de têtes de détection sophistiquées optimisées pour la vitesse et la précision sur des ensembles de données de référence comme COCO. L'entraînement et le déploiement de ces modèles sont facilités par des plateformes comme Ultralytics HUB, qui permettent aux utilisateurs d'exploiter de puissantes capacités de détection pour leurs besoins spécifiques. L'évaluation des performances fait souvent appel à des mesures telles que le mAP et l'IoU, détaillées dans le guide des mesures de performance deYOLO .

Tout lire