Scopri la potenza della segmentazione semantica: classifica ogni pixel delle immagini per una comprensione precisa della scena. Esplora subito applicazioni e strumenti!
La segmentazione semantica è un compito fondamentale della computer vision che prevede l'assegnazione di un'etichetta di classe specifica a ogni singolo pixel di un'immagine. A differenza di altri compiti di visione che potrebbero identificare gli oggetti o classificare l'intera immagine, la segmentazione semantica fornisce una comprensione densa, a livello di pixel, del contenuto della scena. Ciò significa che non si limita a rilevare la presenza di un'auto, ma delinea con precisione quali pixel appartengono alla categoria delle auto, differenziandoli dai pixel appartenenti alla strada, al cielo o ai pedoni.
L'obiettivo principale della segmentazione semantica è quello di suddividere un'immagine in regioni significative corrispondenti a diverse categorie di oggetti. Ad esempio, in un'immagine contenente più auto, pedoni e alberi, un modello di segmentazione semantica etichetterà tutti i pixel che compongono un'auto come "auto", tutti i pixel di un pedone come "pedone" e tutti i pixel di un albero come "albero". Tratta tutte le istanze della stessa classe di oggetti in modo identico. Questo contrasta con la classificazione delle immagini, che assegna un'unica etichetta all'intera immagine, e con il rilevamento degli oggetti, che disegna dei riquadri di delimitazione intorno agli oggetti rilevati ma non ne delinea la forma esatta.
I modelli di segmentazione semantica sono in genere addestrati con tecniche di apprendimento supervisionato, che richiedono set di dati con annotazioni dettagliate a livello di pixel. L'output è solitamente una mappa di segmentazione, ovvero un'immagine in cui il valore (o il colore) di ogni pixel corrisponde all'etichetta di classe prevista.
È importante distinguere la segmentazione semantica dai compiti correlati:
La comprensione dettagliata della scena fornita dalla segmentazione semantica è fondamentale per molte applicazioni del mondo reale:
La segmentazione semantica impiega spesso modelli di deep learning, in particolare le reti neurali convoluzionali (CNN). Architetture come le Fully Convolutional Networks (FCN) e le U-Net sono scelte popolari. Modelli moderni come Ultralytics YOLOv8 offrono anche potenti funzionalità per le attività di segmentazione. Strumenti come Ultralytics HUB offrono piattaforme per addestrare, gestire dataset come COCO e distribuire modelli di segmentazione in modo efficiente.