Glossario

Trasformatore di visione (ViT)

Scopri come i Vision Transformers (ViT) rivoluzionano la computer vision con l'auto-attenzione, eccellendo nelle attività di classificazione, rilevamento e segmentazione.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I Vision Transformers (ViT) hanno rivoluzionato la computer vision introducendo le architetture basate sui trasformatori, tradizionalmente utilizzate nell'elaborazione del linguaggio naturale (NLP), nei compiti di visione. A differenza delle reti neurali convoluzionali (CNN), che si basano su operazioni convoluzionali, le ViT utilizzano meccanismi di auto-attenzione per analizzare ed elaborare i dati delle immagini, offrendo un approccio più flessibile e scalabile alle varie sfide della visione.

Come funzionano i trasformatori di visione

I ViT dividono un'immagine di input in piccoli patch di dimensioni fisse, li appiattiscono e trattano ogni patch come un "token", simile alle parole in NLP. Questi token vengono poi incorporati in vettori ad alta dimensione e fatti passare attraverso molteplici strati di codificatori trasformatori, dove i meccanismi di auto-attenzione permettono al modello di concentrarsi sulle parti rilevanti dell'immagine. Questa struttura permette ai ViT di catturare efficacemente le dipendenze sia locali che globali.

I ViT si basano su codifiche posizionali per conservare le informazioni spaziali, un aspetto critico dei dati delle immagini che manca ai trasformatori tradizionali. Apprendendo le relazioni tra i patch, i ViT possono raggiungere prestazioni all'avanguardia in compiti come la classificazione delle immagini, il rilevamento degli oggetti e la segmentazione.

Vantaggi rispetto alle CNN

  1. Scalabilità: Le ViT si scalano meglio con i dataset di grandi dimensioni rispetto alle CNN, rendendole adatte alle applicazioni che richiedono immagini ad alta risoluzione o dataset diversi.
  2. Contesto globale: Il meccanismo di auto-attenzione consente alle ViT di modellare le dipendenze a lungo raggio in un'immagine, mentre le CNN sono limitate ai campi recettivi locali.
  3. Flessibilità: I ViT possono essere messi a punto su compiti diversi con modifiche architettoniche minime, sfruttando modelli pre-addestrati come ImageNet.

Per saperne di più sul funzionamento dei trasformatori, consulta la voce del glossario Trasformatori.

Applicazioni dei trasformatori di visione

Classificazione delle immagini

I ViT eccellono nei compiti di classificazione delle immagini sfruttando la loro capacità di catturare le caratteristiche globali dell'immagine. I ViT pre-addestrati, come il Vision Transformer di Google, hanno raggiunto un'accuratezza all'avanguardia su benchmark come ImageNet. Ad esempio, i ViT vengono applicati nel settore sanitario per classificare le immagini mediche, favorendo la diagnosi delle malattie.

Esplora le attività di classificazione delle immagini con i modelli diUltralytics YOLO .

Rilevamento degli oggetti

Le ViT sono sempre più utilizzate nelle pipeline di rilevamento degli oggetti, sostituendo le tradizionali strutture portanti basate sulla convoluzione. Modelli come DETR (DEtection TRansformer) dimostrano l'efficacia dei ViT nel rilevare e localizzare gli oggetti senza affidarsi a reti di proposta di regioni.

Scopri le soluzioni per il rilevamento degli oggetti con Ultralytics YOLO.

Segmentazione delle immagini

Sfruttando l'auto-attenzione, i ViT forniscono soluzioni accurate ed efficienti per la segmentazione semantica e delle istanze. Le applicazioni includono la guida autonoma, dove la segmentazione precisa a livello di pixel è fondamentale per rilevare segnali stradali, pedoni e veicoli.

Scopri di più sulle attività di segmentazione delle immagini.

Esempi del mondo reale

  1. Assistenza sanitaria: Le ViT sono impiegate nell'imaging medico per compiti come il rilevamento dei tumori e la segmentazione degli organi. La loro capacità di analizzare immagini ad alta risoluzione aiuta nella diagnosi precoce e nella pianificazione del trattamento. Ad esempio, le capacità di imaging medico diUltralytics YOLO11 possono essere potenziate con backbone basati su ViT per migliorare la precisione.

  2. Veicoli autonomi: I ViT alimentano i sistemi di visione delle auto autonome, consentendo il rilevamento in tempo reale di ostacoli, segnaletica e cartelli stradali. La consapevolezza del contesto globale migliora la sicurezza e il processo decisionale.

Esplora altre applicazioni dell'IA nella guida autonoma con le soluzioni Vision AI.

Sfide e considerazioni

Se da un lato i ViT offrono vantaggi significativi, dall'altro comportano delle sfide:

  • Requisiti dei dati: I ViT danno il meglio di sé con grandi insiemi di dati, in quanto i loro meccanismi di auto-attenzione richiedono molti dati per generalizzarsi in modo efficace.
  • Costi computazionali: L'addestramento dei ViT richiede notevoli risorse computazionali a causa della loro complessità quadratica nell'auto-attenzione.

Per risolvere questi problemi, sono stati introdotti approcci come i modelli ibridi che combinano le ViT con le CNN e tecniche come la fusione di patch per rendere le ViT più efficienti.

Concetti correlati

  • Trasformatori: I ViT sono un'applicazione specializzata dei trasformatori, progettati originariamente per la PNL. Scopri di più sui trasformatori.
  • Auto-attenzione: Il meccanismo fondamentale dei ViT che permette loro di concentrarsi su diverse parti dell'immagine. Esplora l'auto-attenzione per una comprensione più approfondita.

Le ViT continuano a spingere i confini della computer vision, offrendo soluzioni innovative in tutti i settori. Con strumenti come Ultralytics HUB, gli sviluppatori possono esplorare il potenziale delle ViT in applicazioni reali, semplificando l'implementazione e la scalabilità delle soluzioni di intelligenza artificiale.

Leggi tutto