Segmentation des instances

Découvrez comment la segmentation des instances affine la détection des objets avec une précision au niveau du pixel, ce qui permet d'obtenir des masques d'objets détaillés pour les applications d'IA.

La segmentation d'instances est une tâche avancée de vision par ordinateur qui identifie et délimite des objets individuels dans une image au niveau du pixel. Contrairement à d'autres tâches de vision, elle ne se contente pas de classer une image ou de dessiner une boîte de délimitation autour des objets, mais génère un masque précis au niveau des pixels pour chaque instance d'objet distincte. Cette technique permet une compréhension beaucoup plus approfondie d'une scène, car elle peut différencier les objets de la même classe qui se chevauchent.

Détection d'instances vs. sémantique et détection d'objets

Il est important de distinguer la segmentation des instances des autres tâches de vision par ordinateur.

Détection d'objets: Cette tâche permet d'identifier la présence et l'emplacement des objets, généralement en traçant des boîtes rectangulaires autour d'eux et en leur attribuant une étiquette de classe. Elle répond à la question "Qu'y a-t-il dans l'image et où se trouve-t-il ?", mais ne fournit pas d'informations sur la forme.
Segmentation sémantique: Cette tâche consiste à classer chaque pixel d'une image dans une catégorie spécifique. Par exemple, tous les pixels appartenant à des voitures seront étiquetés comme "voiture", mais il n'y aura pas de distinction entre deux voitures différentes dans l'image. Elle répond à la question "À quelle catégorie appartient chaque pixel ?".
Segmentation des instances: Elle combine les capacités de détection des objets et de segmentation sémantique. Elle détecte chaque instance d'objet et génère un masque de segmentation unique. Dans une image comportant trois voitures, la segmentation par instance produirait trois masques distincts, chacun correspondant à une voiture spécifique.
Segmentation panoptique: Il s'agit de la tâche de segmentation la plus complète, qui fusionne la segmentation sémantique et la segmentation par instance. Elle attribue à chaque pixel une étiquette de classe et un identifiant d'instance unique, ce qui permet d'obtenir une compréhension complète et unifiée de la scène.

Fonctionnement de la segmentation des instances

Les modèles de segmentation d'instances remplissent généralement deux fonctions principales : premièrement, ils détectent toutes les instances d'objets dans une image et deuxièmement, ils génèrent un masque de segmentation pour chaque instance détectée. Ce processus a été popularisé par des architectures telles que Mask R-CNN, qui étend les détecteurs d'objets tels que Faster R-CNN en ajoutant une branche parallèle qui prédit un masque binaire pour chaque région d'intérêt. Les modèles modernes ont encore affiné ce processus pour améliorer la vitesse et la précision, permettant une inférence en temps réel dans de nombreuses applications. Le développement s'appuie souvent sur de puissants cadres d'apprentissage profond tels que PyTorch et TensorFlow.

Applications dans le monde réel

Les contours détaillés des objets fournis par la segmentation des instances sont précieux dans de nombreux domaines.

Véhicules autonomes: Les voitures autonomes s'appuient sur la segmentation des instances pour identifier avec précision la forme et l'emplacement des piétons, des véhicules et des cyclistes. Ce détail granulaire est essentiel pour la sécurité de la navigation et la planification de la trajectoire, en particulier dans les environnements urbains complexes avec de nombreux objets qui se chevauchent. Des ensembles de données tels que Cityscapes ont permis de faire progresser ce domaine.
Analyse d'images médicales: En radiologie, la segmentation des instances est utilisée pour délimiter avec une grande précision les tumeurs, les lésions et les organes à partir de tomographies ou d'IRM. Cela aide les médecins à mesurer la taille d'une tumeur, à planifier les interventions chirurgicales et à contrôler l'efficacité des traitements. Pour en savoir plus, consultez notre article de blog sur l'utilisation de YOLO11 pour la détection des tumeurs.
Robotique : Les robots utilisent la segmentation des instances pour comprendre leur environnement, identifier les objets spécifiques à saisir et éviter les obstacles avec une plus grande précision. Cet aspect est crucial pour les tâches de fabrication et de logistique.
Analyse de l'imagerie satellitaire: Cette technique est utilisée pour compter les arbres d'une forêt, cartographier les bâtiments d'une ville ou suivre l'évolution de l'utilisation des sols au fil du temps grâce à des données provenant d'organisations telles que la NASA.
Agriculture: Il peut être utilisé pour identifier et compter des fruits individuels afin d'estimer le rendement ou pour détecter des mauvaises herbes spécifiques en vue d'une application ciblée d'herbicides, un élément clé de l'agriculture de précision.