Glossario

Trasformatore

Scopri come le architetture Transformer rivoluzionano l'IA, consentendo di fare passi da gigante in NLP, computer vision e attività di ML avanzate.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I trasformatori rappresentano un'architettura di rete neurale fondamentale che ha fatto progredire in modo significativo i campi dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML), in particolare nell'elaborazione del linguaggio naturale (NLP) e, in misura crescente, nella visione artificiale (CV). Introdotte nell'influente articolo"Attention Is All You Need", elaborano dati sequenziali, come testi o serie temporali, utilizzando un meccanismo chiamato auto-attenzione. Ciò consente al modello di soppesare dinamicamente l'importanza delle diverse parti dell'input, superando le limitazioni principali di architetture più vecchie come le reti neurali ricorrenti (RNN).

Come funzionano i trasformatori

L'innovazione principale di Transformers è il meccanismo di auto-attenzione. A differenza delle RNN, che elaborano l'input in modo sequenziale (un elemento dopo l'altro) e possono avere difficoltà con sequenze lunghe a causa di problemi come l 'annullamento dei gradienti, i Transformers possono considerare tutte le parti della sequenza di input simultaneamente. Questa capacità di elaborazione in parallelo accelera notevolmente la formazione su hardware moderni come le GPU di aziende come NVIDIA.

Mentre le tipiche reti neurali convoluzionali (CNN) si concentrano sulle caratteristiche locali attraverso filtri di dimensioni fisse che eseguono la convoluzione, il meccanismo dell'attenzione consente ai trasformatori di catturare le dipendenze a lungo raggio e le relazioni contestuali nell'intero input. Questa capacità di comprendere il contesto globale è fondamentale per i compiti che coinvolgono relazioni complesse, sia nel testo che nelle patch di immagini utilizzate nei Vision Transformers (ViT).

Rilevanza e impatto

I trasformatori sono diventati la base di molti modelli di AI all'avanguardia grazie alla loro efficacia nel catturare il contesto e nel gestire sequenze lunghe. La loro natura parallelizzabile ha permesso l'addestramento di modelli massivi con miliardi di parametri, come GPT-3 e GPT-4 sviluppati da OpenAI, portando a scoperte nell'IA generativa. Questa scalabilità e queste prestazioni hanno reso i Transformer centrali per il progresso di varie attività di IA, guidando l'innovazione nella ricerca e nell'industria. Molti modelli Transformer popolari, come BERT, sono facilmente disponibili attraverso piattaforme come Hugging Face e implementati con framework come PyTorch e TensorFlowspesso integrati in piattaforme MLOps come Ultralytics HUB.

Applicazioni in AI e ML

I trasformatori sono altamente versatili e alimentano numerose applicazioni AI:

Transformer vs. altre architetture

È utile distinguere i Transformer da altre architetture di reti neurali comuni:

  • Trasformatori vs. RNN: Le RNN elaborano i dati in modo sequenziale, il che le rende adatte alle serie temporali ma inclini a dimenticare le informazioni precedenti nelle sequenze lunghe(problema del gradiente che svanisce). I trasformatori elaborano le sequenze in parallelo utilizzando l'autoattenzione, catturando le dipendenze a lungo raggio in modo più efficace e allenandosi più velocemente su hardware parallelo(GPU).
  • Trasformatori vs. CNN: Le CNN eccellono nell'identificazione di schemi locali in dati simili a griglie (ad esempio, i pixel di un'immagine) utilizzando filtri convoluzionali. Sono molto efficienti per molti compiti di visione come quelli affrontati da Ultralytics YOLO modelli. I trasformatori, in particolare i ViT, dividono le immagini in patch e utilizzano l'auto-attenzione per modellare le relazioni tra di esse, catturando il contesto globale in modo potenzialmente migliore ma richiedendo spesso più dati e risorse computazionali, soprattutto durante l'addestramento del modello. Le architetture ibride, che combinano le caratteristiche delle CNN con gli strati Transformer, mirano a sfruttare i punti di forza di entrambe, come si vede in alcune varianti diRT-DETR . La scelta dipende spesso dal compito specifico, dalle dimensioni del set di dati e dalle risorse di calcolo disponibili.
Leggi tutto