Glossaire

Segmentation panoptique

Découvre comment la segmentation panoptique unifie la segmentation sémantique et la segmentation d'instance pour une compréhension précise de la scène au niveau du pixel dans les applications d'IA.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La segmentation panoptique est une technique avancée de vision par ordinateur conçue pour obtenir une compréhension complète et détaillée d'une scène visuelle au niveau des pixels. Elle combine de façon unique les forces de deux autres méthodes de segmentation clés : la segmentation sémantique et la segmentation par instance. L'objectif principal de la segmentation panoptique est d'attribuer une étiquette de classe (comme "voiture", "personne", "route", "ciel") et un identifiant d'instance (pour distinguer les différents objets de la même classe) à chaque pixel d'une image, afin de fournir une interprétation riche et unifiée de la scène.

Comprendre l'approche unifiée

Pour comprendre la segmentation panoptique, il est utile de la comparer à des tâches connexes. La détection d'objets identifie les objets à l'aide de boîtes de délimitation mais manque de détails au niveau des pixels. La segmentation sémantique classe chaque pixel dans une catégorie (par exemple, toutes les voitures sont étiquetées "voiture"), mais elle ne différencie pas les objets individuels au sein d'une même catégorie. La segmentation par instance permet de résoudre ce problème en détectant et en segmentant chaque instance d'objet distincte (par exemple, voiture 1, voiture 2), mais elle se concentre généralement sur les objets dénombrables ("choses") et peut ignorer les régions de l'arrière-plan ("choses" comme l'herbe, le ciel ou la route).

La segmentation panoptique comble cette lacune en offrant une compréhension plus holistique de la scène. Elle attribue une étiquette sémantique à chaque pixel, qu'il appartienne à une classe de "choses" (objets dénombrables comme les véhicules, les piétons, les animaux) ou à une classe de "choses" (régions amorphes comme les routes, les murs, le ciel). Pour les pixels appartenant à des classes d'objets, il attribue également un identifiant d'instance unique, séparant ainsi chaque objet des autres du même type. Cet étiquetage complet permet de s'assurer qu'aucun pixel n'est laissé sans classification, offrant ainsi une analyse complète de l'image.

Comment fonctionne la segmentation panoptique

Les modèles de segmentation panoptique s'appuient généralement sur des architectures d'apprentissage profond. Ces modèles utilisent souvent un extracteur de caractéristiques partagé (un réseau dorsal) suivi de têtes ou de branches spécialisées qui prédisent les étiquettes sémantiques pour tous les pixels et les masques d'instance pour les classes de "choses". Les sorties de ces branches sont ensuite intelligemment combinées ou fusionnées pour produire la carte de segmentation panoptique finale, où chaque pixel possède à la fois une étiquette sémantique et, le cas échéant, un identifiant d'instance.

Applications dans le monde réel

La compréhension globale de la scène fournie par la segmentation panoptique est très précieuse dans divers domaines :

  • Conduite autonome : Pour les voitures autonomes, distinguer les différents véhicules et les piétons (instances) tout en comprenant la route, les trottoirs, les feux de signalisation et le ciel (contexte sémantique) est vital pour une navigation en toute sécurité. Des entreprises comme Waymo et des technologies comme l'Autopilot de Tesla s'appuient fortement sur une perception sophistiquée des scènes.
  • Imagerie médicale : Dans l'analyse d'images médicales, la segmentation panoptique permet d'identifier et de délimiter avec précision des cellules ou des tumeurs individuelles (instances) tout en classant simultanément les tissus environnants et les structures d'arrière-plan (étiquettes sémantiques), ce qui facilite le diagnostic et la planification du traitement. Des ensembles de données comme PanNuke se concentrent sur ce type de segmentation nucléaire.
  • Robotique et réalité augmentée : La compréhension de l'environnement complet, y compris les objets individuels et le contexte d'arrière-plan, est cruciale pour les robots qui interagissent avec des espaces complexes et pour superposer des informations numériques avec précision dans les applications de réalité augmentée. Le domaine de la robotique bénéficie grandement de la cartographie détaillée de l'environnement.

Segmentation panoptique avec Ultralytics

Bien que la segmentation panoptique soit une tâche complexe, les progrès réalisés dans les modèles tels que Ultralytics YOLO repoussent les limites de la performance de la segmentation. Les modèles tels que Ultralytics YOLOv8 offrent de solides capacités pour les tâches de segmentation d'images connexes, formant ainsi une base pour la construction de systèmes de perception plus complexes. Les utilisateurs peuvent s'appuyer sur des plateformes comme Ultralytics HUB pour rationaliser les flux de travail, y compris l'entraînement des modèles sur des ensembles de données personnalisés et l'exploration de diverses options de déploiement de modèles.

Tout lire