Scopri come le architetture Transformer rivoluzionano l'IA, consentendo di fare passi da gigante in NLP, computer vision e attività di ML avanzate.
I trasformatori rappresentano un'architettura di rete neurale fondamentale che ha fatto progredire in modo significativo i campi dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML), in particolare nell'elaborazione del linguaggio naturale (NLP) e, in misura crescente, nella visione artificiale (CV). Introdotte nell'influente articolo"Attention Is All You Need", elaborano dati sequenziali, come testi o serie temporali, utilizzando un meccanismo chiamato auto-attenzione. Ciò consente al modello di soppesare dinamicamente l'importanza delle diverse parti dell'input, superando le limitazioni principali di architetture più vecchie come le reti neurali ricorrenti (RNN).
L'innovazione principale di Transformers è il meccanismo di auto-attenzione. A differenza delle RNN, che elaborano l'input in modo sequenziale (un elemento dopo l'altro) e possono avere difficoltà con sequenze lunghe a causa di problemi come l 'annullamento dei gradienti, i Transformers possono considerare tutte le parti della sequenza di input simultaneamente. Questa capacità di elaborazione in parallelo accelera notevolmente la formazione su hardware moderni come le GPU di aziende come NVIDIA.
Mentre le tipiche reti neurali convoluzionali (CNN) si concentrano sulle caratteristiche locali attraverso filtri di dimensioni fisse che eseguono la convoluzione, il meccanismo dell'attenzione consente ai trasformatori di catturare le dipendenze a lungo raggio e le relazioni contestuali nell'intero input. Questa capacità di comprendere il contesto globale è fondamentale per i compiti che coinvolgono relazioni complesse, sia nel testo che nelle patch di immagini utilizzate nei Vision Transformers (ViT).
I trasformatori sono diventati la base di molti modelli di AI all'avanguardia grazie alla loro efficacia nel catturare il contesto e nel gestire sequenze lunghe. La loro natura parallelizzabile ha permesso l'addestramento di modelli massivi con miliardi di parametri, come GPT-3 e GPT-4 sviluppati da OpenAI, portando a scoperte nell'IA generativa. Questa scalabilità e queste prestazioni hanno reso i Transformer centrali per il progresso di varie attività di IA, guidando l'innovazione nella ricerca e nell'industria. Molti modelli Transformer popolari, come BERT, sono facilmente disponibili attraverso piattaforme come Hugging Face e implementati con framework come PyTorch e TensorFlowspesso integrati in piattaforme MLOps come Ultralytics HUB.
I trasformatori sono altamente versatili e alimentano numerose applicazioni AI:
È utile distinguere i Transformer da altre architetture di reti neurali comuni: