Glossaire

Détection d'objets

Découvre la puissance de la détection d'objets - identifie et localise les objets dans les images ou les vidéos avec des modèles de pointe comme YOLO. Explore les applications du monde réel !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La détection d'objets est une tâche fondamentale de la vision par ordinateur (VA) qui consiste à identifier la présence, l'emplacement et le type d'un ou de plusieurs objets dans une image ou une vidéo. Contrairement à la classification des images, qui attribue une étiquette unique à l'ensemble de l'image (par exemple, "chat"), la détection d'objets délimite précisément chaque instance d'objet à l'aide d'une boîte englobante et lui attribue une étiquette de classe (par exemple, "chat" aux coordonnées x, y, largeur, hauteur). Cette capacité permet aux machines de comprendre les scènes visuelles avec une plus grande granularité, imitant de plus près la perception visuelle humaine et permettant des interactions plus complexes avec l'environnement. Il s'agit d'une technologie de base qui sous-tend de nombreuses applications modernes d'intelligence artificielle (IA).

Comment fonctionne la détection d'objets

La détection d'objets combine généralement deux tâches essentielles : la classification des objets (déterminer "quel" objet est présent) et la localisation des objets (déterminer "où" l'objet est situé, généralement via les coordonnées de la boîte englobante). Les systèmes modernes de détection d'objets s'appuient fortement sur l'apprentissage profond (DL), en particulier les réseaux neuronaux convolutifs (CNN). Ces réseaux sont formés sur de grands ensembles de données annotés, tels que le populaire ensemble de données COCO ou Open Images V7, afin d'apprendre les caractéristiques visuelles et les motifs associés aux différentes classes d'objets.

Pendant le fonctionnement (appelé inférence), le modèle formé traite une image ou une trame vidéo d'entrée. Il produit une liste d'objets potentiels, chacun représenté par une boîte englobante, une étiquette de classe prédite (par exemple, "voiture", "personne", "chien") et un score de confiance indiquant la certitude du modèle quant à la détection. Des techniques telles que la suppression non maximale (NMS) sont souvent utilisées pour affiner ces résultats en supprimant les boîtes redondantes qui se chevauchent pour le même objet. Les performances de ces modèles sont généralement évaluées à l'aide de mesures telles que l'intersection sur l'union (IoU) et la précision moyenne (mAP).

Détection d'objets et tâches connexes

Il est important de distinguer la détection d'objets des autres tâches de vision par ordinateur :

  • Classification des images: Attribue une seule étiquette à une image entière (par exemple, "Cette image contient un chien"). Elle ne localise pas le ou les objets.
  • Segmentation d'images: Classifie chaque pixel d'une image, créant ainsi une carte détaillée des limites de l'objet. Cette méthode est plus granulaire que les boîtes de délimitation de la détection d'objets.
    • Segmentation sémantique: Attribue une étiquette de classe à chaque pixel (par exemple, tous les pixels appartenant à " voitures " sont étiquetés " voiture "). Elle ne fait pas de distinction entre les différentes instances d'une même classe.
    • Segmentation de l'instance: Attribue une étiquette de classe à chaque pixel et différencie les instances individuelles de la même classe (par exemple, "voiture 1", "voiture 2"). Elle combine la détection et la segmentation.
  • Suivi des objets: Implique la détection d'objets dans des images vidéo consécutives et l'attribution d'un identifiant unique à chaque objet pour suivre son mouvement dans le temps. Cette méthode s'appuie sur la détection d'objets.

Types de modèles de détection d'objets

Les modèles de détection d'objets se répartissent généralement en deux grandes catégories, qui diffèrent principalement par leur approche et les compromis vitesse/précision :

  • Détecteurs d'objets à deux niveaux: Ces modèles proposent d'abord des régions d'intérêt (RdI) où des objets pourraient se trouver, puis classent les objets dans ces régions. La famille R-CNN (Fast R-CNN, Faster R-CNN) en est un exemple. Ils atteignent souvent une grande précision mais ont tendance à être plus lents.
  • Détecteurs d'objets à un étage: Ces modèles prédisent directement les boîtes de délimitation et les probabilités de classe à partir de l'image d'entrée en un seul passage, sans étape de proposition de région séparée. Parmi les exemples, on peut citer le modèle Ultralytics YOLO (You Only Look Once) d'Ultralytics, SSD (Single Shot MultiBox Detector) et RetinaNet. Elles sont généralement plus rapides, ce qui les rend adaptées à l'inférence en temps réel, parfois au prix d'une précision légèrement inférieure à celle des méthodes en deux étapes, bien que des modèles comme YOLO11 comblent efficacement cet écart. Des approches plus récentes, comme les détecteurs sans ancrage, simplifient encore davantage le processus en une étape. Tu peux explorer les comparaisons entre différents modèles YOLO et d'autres architectures telles que RT-DETR.

Applications dans le monde réel

La détection d'objets est une technologie fondamentale qui permet de nombreuses applications dans divers secteurs d'activité :

  1. Systèmes autonomes : Essentiels pour les voitures auto-conduites et la robotique, permettant aux véhicules et aux robots de percevoir leur environnement en détectant les piétons, les autres véhicules, les obstacles, les panneaux de signalisation et les objets spécifiques pour l'interaction. Des entreprises comme Tesla et Waymo s'appuient fortement sur une détection robuste des objets.
  2. Sécurité et surveillance : Utilisé dans les systèmes d'alarme de sécurité pour détecter les intrus, surveiller les foules(Vision AI in Crowd Management), identifier les objets abandonnés et améliorer l'efficacité de la surveillance dans les espaces publics et les propriétés privées.
  3. Retail Analytics : Alimente des applications telles que les systèmes de caisse automatisés, la gestion des stocks pilotée par l'IA, la surveillance des rayons (détection des articles en rupture de stock) et l'analyse des schémas de fréquentation des clients.
  4. Santé : Appliqué à l'analyse d'images médicales pour détecter des anomalies comme des tumeurs(Using YOLO11 for Tumor Detection) ou des lésions dans les radiographies, les tomodensitogrammes et les IRM, aidant ainsi les radiologues à poser leur diagnostic(Radiology : Artificial Intelligence).
  5. Agriculture : Permet des techniques d'agriculture de précision, telles que la détection des parasites, des maladies, des mauvaises herbes, le comptage des fruits(Vision par ordinateur dans l'agriculture), et la surveillance de la santé des cultures(solutions d'IA dans l'agriculture).
  6. Fabrication : Utilisé pour le contrôle de la qualité en détectant les défauts des produits sur les chaînes de montage(Quality Inspection in Manufacturing), en assurant la sécurité par la surveillance des zones dangereuses et en automatisant les tâches robotiques.

Outils et formation

Le développement et le déploiement de modèles de détection d'objets impliquent divers outils et techniques. Les cadres d'apprentissage profond populaires comme PyTorch et TensorFlow fournissent les bibliothèques de base. Les bibliothèques de vision par ordinateur telles qu'OpenCV offrent des fonctions essentielles de traitement d'images.

Ultralytics offre une technologie de pointe Ultralytics YOLO à la pointe de la technologie, y compris les modèles YOLOv8 et YOLO11optimisés pour la vitesse et la précision. La plateforme Ultralytics HUB simplifie encore davantage le flux de travail, en proposant des outils pour gérer les ensembles de données, former des modèles personnalisés, effectuer le réglage des hyperparamètres et faciliter le déploiement des modèles. Un entraînement efficace des modèles bénéficie souvent de stratégies d'augmentation des données et de techniques telles que l'apprentissage par transfert en utilisant des poids pré-entraînés provenant d'ensembles de données tels qu'ImageNet.

Tout lire