Scopri come i Vision Transformers (ViT) rivoluzionano la computer vision con l'auto-attenzione, eccellendo nelle attività di classificazione, rilevamento e segmentazione.
I Vision Transformers (ViT) hanno rivoluzionato la computer vision introducendo le architetture basate sui trasformatori, tradizionalmente utilizzate nell'elaborazione del linguaggio naturale (NLP), nei compiti di visione. A differenza delle reti neurali convoluzionali (CNN), che si basano su operazioni convoluzionali, le ViT utilizzano meccanismi di auto-attenzione per analizzare ed elaborare i dati delle immagini, offrendo un approccio più flessibile e scalabile alle varie sfide della visione.
I ViT dividono un'immagine di input in piccoli patch di dimensioni fisse, li appiattiscono e trattano ogni patch come un "token", simile alle parole in NLP. Questi token vengono poi incorporati in vettori ad alta dimensione e fatti passare attraverso molteplici strati di codificatori trasformatori, dove i meccanismi di auto-attenzione permettono al modello di concentrarsi sulle parti rilevanti dell'immagine. Questa struttura permette ai ViT di catturare efficacemente le dipendenze sia locali che globali.
I ViT si basano su codifiche posizionali per conservare le informazioni spaziali, un aspetto critico dei dati delle immagini che manca ai trasformatori tradizionali. Apprendendo le relazioni tra i patch, i ViT possono raggiungere prestazioni all'avanguardia in compiti come la classificazione delle immagini, il rilevamento degli oggetti e la segmentazione.
Per saperne di più sul funzionamento dei trasformatori, consulta la voce del glossario Trasformatori.
I ViT eccellono nei compiti di classificazione delle immagini sfruttando la loro capacità di catturare le caratteristiche globali dell'immagine. I ViT pre-addestrati, come il Vision Transformer di Google, hanno raggiunto un'accuratezza all'avanguardia su benchmark come ImageNet. Ad esempio, i ViT vengono applicati nel settore sanitario per classificare le immagini mediche, favorendo la diagnosi delle malattie.
Esplora le attività di classificazione delle immagini con i modelli diUltralytics YOLO .
Le ViT sono sempre più utilizzate nelle pipeline di rilevamento degli oggetti, sostituendo le tradizionali strutture portanti basate sulla convoluzione. Modelli come DETR (DEtection TRansformer) dimostrano l'efficacia dei ViT nel rilevare e localizzare gli oggetti senza affidarsi a reti di proposta di regioni.
Scopri le soluzioni per il rilevamento degli oggetti con Ultralytics YOLO.
Sfruttando l'auto-attenzione, i ViT forniscono soluzioni accurate ed efficienti per la segmentazione semantica e delle istanze. Le applicazioni includono la guida autonoma, dove la segmentazione precisa a livello di pixel è fondamentale per rilevare segnali stradali, pedoni e veicoli.
Scopri di più sulle attività di segmentazione delle immagini.
Assistenza sanitaria: Le ViT sono impiegate nell'imaging medico per compiti come il rilevamento dei tumori e la segmentazione degli organi. La loro capacità di analizzare immagini ad alta risoluzione aiuta nella diagnosi precoce e nella pianificazione del trattamento. Ad esempio, le capacità di imaging medico diUltralytics YOLO11 possono essere potenziate con backbone basati su ViT per migliorare la precisione.
Veicoli autonomi: I ViT alimentano i sistemi di visione delle auto autonome, consentendo il rilevamento in tempo reale di ostacoli, segnaletica e cartelli stradali. La consapevolezza del contesto globale migliora la sicurezza e il processo decisionale.
Esplora altre applicazioni dell'IA nella guida autonoma con le soluzioni Vision AI.
Se da un lato i ViT offrono vantaggi significativi, dall'altro comportano delle sfide:
Per risolvere questi problemi, sono stati introdotti approcci come i modelli ibridi che combinano le ViT con le CNN e tecniche come la fusione di patch per rendere le ViT più efficienti.
Le ViT continuano a spingere i confini della computer vision, offrendo soluzioni innovative in tutti i settori. Con strumenti come Ultralytics HUB, gli sviluppatori possono esplorare il potenziale delle ViT in applicazioni reali, semplificando l'implementazione e la scalabilità delle soluzioni di intelligenza artificiale.