Découvrez la segmentation sémantique pour la compréhension des images au niveau des pixels. Apprenez dès aujourd'hui à former et à déployer des modèles de segmentation précis à l'aide Ultralytics .
La segmentation sémantique est une tâche de vision par ordinateur qui consiste à diviser une image en régions distinctes en attribuant une étiquette de classe spécifique à chaque pixel individuel. Contrairement à des tâches plus simples comme la classification d'images, qui attribue une seule étiquette à une image entière, ou la détection d'objets, qui dessine des cadres autour des objets, la segmentation sémantique fournit une compréhension au niveau du pixel de la scène. Cette analyse granulaire est cruciale pour les applications où la forme et les limites précises d'un objet sont tout aussi importantes que son identité. Elle permet aux machines de « voir » le monde de manière plus humaine, en distinguant les pixels exacts qui composent une route, un piéton ou une tumeur dans un scan médical.
À la base, la segmentation sémantique traite une image comme une grille de pixels qui doivent être classés. Les modèles d'apprentissage profond , en particulier les réseaux neuronaux convolutifs (CNN), constituent l'architecture standard pour cette tâche. Une architecture typique, telle que le très répandu U-Net, utilise une structure encodeur-décodeur. L'encodeur compresse l'image d'entrée pour extraire des caractéristiques de haut niveau (telles que les textures et les formes), tandis que le décodeur rééchantillonne ces caractéristiques à la résolution d'origine de l'image afin de générer un masque de segmentation
Pour ce faire, les modèles sont entraînés à partir de vastes ensembles de données annotées, dans lesquels des annotateurs humains ont soigneusement coloré chaque pixel en fonction de sa classe. Des outils tels que Ultralytics facilitent ce processus en proposant des fonctionnalités d'annotation automatique qui accélèrent la création de données de référence de haute qualité. Une fois entraîné, le modèle génère un masque dans lequel chaque valeur de pixel correspond à un identifiant de classe, « peignant » ainsi l'image de manière significative.
Il est courant de confondre la segmentation sémantique avec d'autres tâches au niveau des pixels. Il est essentiel de comprendre les différences pour choisir l'approche adaptée à un projet :
La capacité à analyser des données visuelles avec une précision au pixel près stimule l'innovation dans de nombreux secteurs à forts enjeux :
Les modèles de segmentation modernes doivent trouver un équilibre entre précision et rapidité, en particulier pour
inférence en temps réel sur les appareils périphériques. Le
Ultralytics YOLO26 La famille de modèles comprend des
modèles de segmentation spécialisés (désignés par un -seg suffixe) qui sont nativement de bout en bout, offrant des performances supérieures
à celles des architectures plus anciennes telles que YOLO11.
L'exemple suivant montre comment effectuer une segmentation sur une image à l'aide de la fonction ultralytics Python
.
Cela produit des masques binaires qui délimitent les contours des objets.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()
Malgré des progrès significatifs, la segmentation sémantique reste très gourmande en ressources informatiques. Générer une classification pour chaque pixel nécessite d'importantes GPU et mémoire. Les chercheurs travaillent activement à l'optimisation de ces modèles en termes d'efficacité, en explorant des techniques telles que la quantification des modèles afin de faire fonctionner des réseaux lourds sur des téléphones mobiles et des appareils embarqués.
De plus, le besoin de disposer d'énormes ensembles de données étiquetées constitue un goulot d'étranglement. Pour y remédier, l'industrie s'oriente vers la génération de données synthétiques et l' apprentissage auto-supervisé, qui permettent aux modèles d' apprendre à partir d'images brutes sans nécessiter des millions d'étiquettes de pixels manuelles. À mesure que ces technologies mûrissent, nous pouvons nous attendre à ce que la segmentation devienne encore plus omniprésente dans les caméras intelligentes, la robotique et les applications de réalité augmentée.