Esplora la segmentazione delle immagini nella visione artificiale. Scopri come Ultralytics fornisce maschere precise a livello di pixel per la segmentazione di istanze, semantica e panottica.
La segmentazione delle immagini è una tecnica sofisticata nella visione artificiale (CV) che comporta la suddivisione di un'immagine digitale in più sottogruppi di pixel, spesso denominati segmenti o regioni dell'immagine. A differenza della classificazione standard delle immagini, che assegna un'unica etichetta all'intera immagine, la segmentazione analizza i dati visivi a un livello molto più granulare, assegnando un'etichetta di classe specifica a ogni singolo pixel. Questo processo crea una mappa precisa a livello di pixel, consentendo ai modelli di intelligenza artificiale (AI) di comprendere non solo quali oggetti sono presenti, ma anche dove si trovano esattamente e quali sono i loro confini specifici .
Per ottenere questa comprensione ad alta fedeltà, i modelli di segmentazione sfruttano tipicamente architetture di deep learning (DL), in particolare le reti neurali convoluzionali (CNN). Queste reti agiscono come potenti estrattori di caratteristiche, identificando modelli quali bordi, texture e forme complesse . Le architetture di segmentazione tradizionali, come la classica U-Net, spesso impiegano una struttura codificatore-decodificatore. Il codificatore comprime l'immagine in ingresso per catturare il contesto semantico, mentre il decodificatore ricostruisce i dettagli spaziali per produrre una maschera di segmentazione finale.
I progressi moderni hanno portato alla creazione di architetture in tempo reale come YOLO26, rilasciata nel gennaio 2026. Questi modelli integrano funzionalità di segmentazione direttamente in una pipeline end-to-end, consentendo un'elaborazione ad alta velocità su vari hardware, dalle GPU cloud ai dispositivi edge .
A seconda dell'obiettivo specifico di un progetto, gli sviluppatori scelgono generalmente tra tre principali tecniche di segmentazione:
È fondamentale distinguere la segmentazione dal rilevamento degli oggetti. Mentre gli algoritmi di rilevamento localizzano gli elementi utilizzando un riquadro rettangolare, essi includono inevitabilmente i pixel dello sfondo all'interno di tale riquadro. La segmentazione fornisce una rappresentazione più precisa e accurata tracciando il contorno esatto o il poligono dell'oggetto. Questa differenza è fondamentale per applicazioni come la presa robotica, dove un braccio robotico deve conoscere la geometria precisa di un oggetto per manipolarlo senza collisioni.
La precisione offerta dalla segmentazione delle immagini stimola l'innovazione in diversi settori industriali:
Gli sviluppatori possono implementare la segmentazione delle istanze in modo efficiente utilizzando il ultralytics Python . L'
esempio seguente utilizza il più recente Modello YOLO26,
ottimizzato sia per la velocità che per la precisione.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
Per ottenere prestazioni elevate nelle attività personalizzate, i team spesso devono curare dati di addestramento di alta qualità . Ultralytics semplifica questo processo fornendo strumenti per annotare immagini con maschere poligonali, gestire set di dati e addestrare modelli nel cloud, ottimizzando l'intero ciclo di vita delle operazioni di machine learning (MLOps) . Librerie come OpenCV sono spesso utilizzate insieme a questi modelli per la pre-elaborazione delle immagini e la post-elaborazione delle maschere risultanti.