Glossario

Segmentazione delle immagini

Scopri la potenza della segmentazione delle immagini con Ultralytics YOLO . Esplora la precisione a livello di pixel, i tipi, le applicazioni e i casi d'uso dell'intelligenza artificiale nel mondo reale.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La segmentazione delle immagini è una tecnica fondamentale della computer vision (CV) che prevede la suddivisione di un'immagine digitale in più regioni o segmenti distinti. L'obiettivo principale è quello di assegnare un'etichetta di classe a ogni pixel dell'immagine, semplificando essenzialmente la rappresentazione dell'immagine in qualcosa di più significativo e più facile da analizzare per le macchine. A differenza del rilevamento degli oggetti, che li identifica utilizzando caselle di delimitazione rettangolari, la segmentazione delle immagini fornisce una comprensione molto più granulare, a livello di pixel, del contenuto dell'immagine, delineando la forma esatta degli oggetti. Questa precisione è fondamentale per le attività che richiedono una consapevolezza spaziale dettagliata.

Come funziona la segmentazione delle immagini

Gli algoritmi di segmentazione delle immagini funzionano esaminando un'immagine pixel per pixel e raggruppando in segmenti i pixel che condividono determinate caratteristiche, come il colore, l'intensità, la texture o la posizione spaziale. I primi metodi si basavano su tecniche come la sogliatura, la crescita delle regioni e il raggruppamento(K-Means, DBSCAN). Tuttavia, gli approcci moderni sfruttano molto il deep learning (DL), in particolare le reti neurali convoluzionali (CNN). Queste reti neurali apprendono caratteristiche gerarchiche complesse direttamente dai dati di addestramento per eseguire una classificazione pixel-wise. L'output tipico è una maschera di segmentazione, un'immagine in cui il valore di ogni pixel corrisponde all'etichetta della classe a cui appartiene, evidenziando visivamente i confini precisi di oggetti o regioni. Framework come PyTorch e TensorFlow sono comunemente utilizzati per costruire e addestrare questi modelli.

Tipi di segmentazione delle immagini

Le attività di segmentazione delle immagini possono variare in base al modo in cui vengono gestiti gli oggetti e le classi:

  • Segmentazione semantica: Assegna ogni pixel a una categoria predefinita (ad esempio, "auto", "strada", "cielo"). Non distingue tra diverse istanze della stessa classe di oggetti. Tutte le auto, ad esempio, condividono la stessa etichetta.
  • Segmentazione dell'istanza: Fa un passo avanti rispetto alla segmentazione semantica identificando e delineando ogni singola istanza di oggetto all'interno di un'immagine. Ogni auto separata avrà un identificatore o una maschera unica, anche se appartiene alla stessa classe. Questo è particolarmente utile quando è necessario contare o tracciare i singoli oggetti.
  • Segmentazione panottica: Combina la segmentazione semantica e quella per istanze. Assegna un'etichetta di classe a ogni pixel (come la segmentazione semantica) e identifica in modo univoco ogni istanza di oggetto (come la segmentazione di istanza). Fornisce una comprensione completa e unificata della scena.

Distinguere la segmentazione delle immagini dai termini correlati

  • Segmentazione dell'immagine vs. rilevamento degli oggetti: Il rilevamento degli oggetti disegna dei riquadri di delimitazione intorno agli oggetti, indicandone la posizione e la classe. La segmentazione delle immagini fornisce una maschera a livello di pixel che delinea la forma esatta di ogni oggetto o regione, offrendo maggiori dettagli rispetto a un semplice riquadro.
  • Segmentazione dell'immagine vs. Classificazione dell'immagine: La classificazione delle immagini assegna una singola etichetta all'intera immagine (ad esempio, "contiene un gatto"). La segmentazione delle immagini assegna un'etichetta a ciascun pixel dell'immagine, identificando più oggetti o regioni e le loro forme.
  • Segmentazione di immagini e riconoscimento di immagini: Il riconoscimento delle immagini è un termine più ampio che indica le attività in cui l'intelligenza artificiale identifica oggetti, persone, luoghi, ecc. nelle immagini. La segmentazione delle immagini è un tipo specifico di riconoscimento delle immagini che si concentra sulla suddivisione a livello di pixel.

Applicazioni del mondo reale

L'analisi dettagliata fornita dalla segmentazione delle immagini consente numerose applicazioni:

Segmentazione delle immagini e Ultralytics YOLO

Ultralytics YOLO modelli, come YOLOv8 e YOLO11offrono prestazioni all'avanguardia per le attività di segmentazione, bilanciando velocità e precisione per un'inferenza in tempo reale. Il framework Ultralytics semplifica il processo di addestramento di modelli di segmentazione personalizzati su dataset come COCO o su dataset specializzati come la segmentazione di parti di automobili o di crepe. Strumenti come Ultralytics HUB offrono una piattaforma semplificata per la gestione dei dataset, l'addestramento dei modelli(è disponibile l'addestramento in cloud) e la loro distribuzione. Puoi esplorare la documentazione dell'attività di segmentazione per i dettagli dell'implementazione o seguire guide come la segmentazione con modelli YOLOv8 pre-addestrati o la segmentazione di immagini con YOLO11 su Google Colab.

Leggi tutto