Découvrez la segmentation d'images dans le domaine de la vision par ordinateur. Découvrez comment Ultralytics fournit des masques précis au niveau des pixels pour la segmentation d'instances, sémantique et panoptique.
La segmentation d'image est une technique sophistiquée de vision par ordinateur (CV) qui consiste à partitionner une image numérique en plusieurs sous-groupes de pixels, souvent appelés segments ou régions d'image. Contrairement à la classification d'image standard , qui attribue une seule étiquette à l'ensemble d'une image, la segmentation analyse les données visuelles à un niveau beaucoup plus granulaire en attribuant une étiquette de classe spécifique à chaque pixel individuel. Ce processus crée une carte précise au niveau des pixels, permettant aux modèles d'intelligence artificielle (IA) de comprendre non seulement quels objets sont présents, mais aussi où ils se trouvent exactement et quelles sont leurs limites spécifiques .
Pour parvenir à cette compréhension haute fidélité, les modèles de segmentation exploitent généralement des architectures d'apprentissage profond (DL), en particulier les réseaux neuronaux convolutifs (CNN). Ces réseaux agissent comme de puissants extracteurs de caractéristiques, identifiant des motifs tels que les contours, les textures et les formes complexes . Les architectures de segmentation traditionnelles, comme le classique U-Net, utilisent souvent une structure encodeur-décodeur. L'encodeur compresse l'image d'entrée pour capturer le contexte sémantique, tandis que le décodeur reconstruit les détails spatiaux pour produire un masque de segmentation final.
Les progrès modernes ont conduit à des architectures en temps réel telles que YOLO26, lancée en janvier 2026. Ces modèles intègrent des capacités de segmentation directement dans un pipeline de bout en bout, permettant un traitement à grande vitesse sur divers matériels, des GPU cloud aux appareils périphériques .
En fonction de l'objectif spécifique d'un projet, les développeurs choisissent généralement entre trois techniques de segmentation principales :
Il est essentiel de différencier la segmentation de la détection d'objets. Alors que les algorithmes de détection localisent les éléments à l'aide d'un cadre rectangulaire, ils incluent inévitablement des pixels d'arrière-plan dans ce cadre. La segmentation fournit une représentation plus précise et plus fidèle en tracant le contour ou le polygone exact de l'objet. Cette différence est essentielle pour des applications telles que la préhension robotique, où un bras robotisé doit connaître la géométrie précise d'un objet pour le manipuler sans collision.
La précision offerte par la segmentation d'images stimule l'innovation dans divers secteurs :
Les développeurs peuvent implémenter efficacement la segmentation d'instance à l'aide du ultralytics Python . L'
exemple suivant utilise le tout dernier Modèle YOLO26,
qui est optimisé à la fois pour la vitesse et la précision.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
Pour obtenir des performances élevées sur des tâches personnalisées, les équipes doivent souvent sélectionner des données d'entraînement de haute qualité . Ultralytics simplifie ce processus en fournissant des outils permettant d' annoter des images avec des masques polygonaux, de gérer des ensembles de données et d'entraîner des modèles dans le cloud, rationalisant ainsi l'ensemble du cycle de vie des opérations d'apprentissage automatique (MLOps). Des bibliothèques telles que OpenCV sont également fréquemment utilisées avec ces modèles pour le prétraitement des images et le post-traitement des masques obtenus.