Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Segmentation sémantique

Découvrez la segmentation sémantique pour la compréhension des images au niveau des pixels. Apprenez dès aujourd'hui à former et à déployer des modèles de segmentation précis à l'aide Ultralytics .

La segmentation sémantique est une tâche de vision par ordinateur qui consiste à diviser une image en régions distinctes en attribuant une étiquette de classe spécifique à chaque pixel individuel. Contrairement à des tâches plus simples comme la classification d'images, qui attribue une seule étiquette à une image entière, ou la détection d'objets, qui dessine des cadres autour des objets, la segmentation sémantique fournit une compréhension au niveau du pixel de la scène. Cette analyse granulaire est cruciale pour les applications où la forme et les limites précises d'un objet sont tout aussi importantes que son identité. Elle permet aux machines de « voir » le monde de manière plus humaine, en distinguant les pixels exacts qui composent une route, un piéton ou une tumeur dans un scan médical.

Comment fonctionne la segmentation sémantique

À la base, la segmentation sémantique traite une image comme une grille de pixels qui doivent être classés. Les modèles d'apprentissage profond , en particulier les réseaux neuronaux convolutifs (CNN), constituent l'architecture standard pour cette tâche. Une architecture typique, telle que le très répandu U-Net, utilise une structure encodeur-décodeur. L'encodeur compresse l'image d'entrée pour extraire des caractéristiques de haut niveau (telles que les textures et les formes), tandis que le décodeur rééchantillonne ces caractéristiques à la résolution d'origine de l'image afin de générer un masque de segmentation

Pour ce faire, les modèles sont entraînés à partir de vastes ensembles de données annotées, dans lesquels des annotateurs humains ont soigneusement coloré chaque pixel en fonction de sa classe. Des outils tels que Ultralytics facilitent ce processus en proposant des fonctionnalités d'annotation automatique qui accélèrent la création de données de référence de haute qualité. Une fois entraîné, le modèle génère un masque dans lequel chaque valeur de pixel correspond à un identifiant de classe, « peignant » ainsi l'image de manière significative.

Distinguer les concepts apparentés

Il est courant de confondre la segmentation sémantique avec d'autres tâches au niveau des pixels. Il est essentiel de comprendre les différences pour choisir l'approche adaptée à un projet :

  • Segmentation d'instance: Alors que la segmentation sémantique traite tous les objets d'une même classe comme une seule entité (par exemple, toutes les « voitures » sont de couleur bleue), la segmentation d'instance distingue les objets individuels (par exemple, la « voiture A » est bleue, la « voiture B » est rouge).
  • Segmentation panoptique: Elle combine les deux concepts. Elle attribue une classe à chaque pixel (sémantique) tout en séparant les instances individuelles d'objets dénombrables (instance), offrant ainsi la compréhension la plus complète de la scène.

Applications concrètes

La capacité à analyser des données visuelles avec une précision au pixel près stimule l'innovation dans de nombreux secteurs à forts enjeux :

  • L'IA dans l'automobile: les véhicules autonomes s'appuient fortement sur la segmentation pour naviguer en toute sécurité. En identifiant les zones praticables par rapport aux trottoirs et en délimitant avec précision les piétons, les voitures et les obstacles, les systèmes de conduite autonome peuvent prendre des décisions critiques en temps réel.
  • L'IA dans le domaine de la santé: en imagerie médicale, les modèles segment , les lésions ou les tumeurs à partir de tomodensitogrammes et d'IRM. Cela aide les radiologues à calculer le volume des tumeurs pour planifier les traitements ou guider les outils chirurgicaux robotiques avec une extrême précision.
  • L'IA dans l'agriculture: les agriculteurs utilisent l'imagerie aérienne par drone et la segmentation pour surveiller la santé des cultures. En classant les pixels comme « culture saine », « mauvaise herbe » ou « sol », les systèmes automatisés peuvent cibler la pulvérisation d'herbicides, réduisant ainsi l'utilisation de produits chimiques et optimisant le rendement.

Mise en œuvre de la segmentation avec Ultralytics

Les modèles de segmentation modernes doivent trouver un équilibre entre précision et rapidité, en particulier pour inférence en temps réel sur les appareils périphériques. Le Ultralytics YOLO26 La famille de modèles comprend des modèles de segmentation spécialisés (désignés par un -seg suffixe) qui sont nativement de bout en bout, offrant des performances supérieures à celles des architectures plus anciennes telles que YOLO11.

L'exemple suivant montre comment effectuer une segmentation sur une image à l'aide de la fonction ultralytics Python . Cela produit des masques binaires qui délimitent les contours des objets.

from ultralytics import YOLO

# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()

Défis et orientations futures

Malgré des progrès significatifs, la segmentation sémantique reste très gourmande en ressources informatiques. Générer une classification pour chaque pixel nécessite d'importantes GPU et mémoire. Les chercheurs travaillent activement à l'optimisation de ces modèles en termes d'efficacité, en explorant des techniques telles que la quantification des modèles afin de faire fonctionner des réseaux lourds sur des téléphones mobiles et des appareils embarqués.

De plus, le besoin de disposer d'énormes ensembles de données étiquetées constitue un goulot d'étranglement. Pour y remédier, l'industrie s'oriente vers la génération de données synthétiques et l' apprentissage auto-supervisé, qui permettent aux modèles d' apprendre à partir d'images brutes sans nécessiter des millions d'étiquettes de pixels manuelles. À mesure que ces technologies mûrissent, nous pouvons nous attendre à ce que la segmentation devienne encore plus omniprésente dans les caméras intelligentes, la robotique et les applications de réalité augmentée.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant