Scopri come le architetture Transformer rivoluzionano l'IA, consentendo di fare passi da gigante in NLP, computer vision e attività di ML avanzate.
I trasformatori rappresentano un'architettura di rete neurale fondamentale che ha fatto progredire in modo significativo i campi dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML), in particolare nell'elaborazione del linguaggio naturale (NLP) e, in misura crescente, nella visione artificiale. Introdotte nell'influente articolo"Attention Is All You Need", elaborano dati sequenziali, come testi o serie temporali, utilizzando un meccanismo chiamato auto-attenzione, che permette al modello di pesare dinamicamente l'importanza delle diverse parti in ingresso. Questo approccio supera le principali limitazioni delle architetture più vecchie, come le reti neurali ricorrenti (RNN).
L'innovazione principale di Transformers è il meccanismo di auto-attenzione. A differenza delle reti neurali ricorrenti (RNN), che elaborano l'input in modo sequenziale e possono avere difficoltà con sequenze lunghe a causa di problemi come la scomparsa dei gradienti, i Transformers possono considerare tutte le parti della sequenza di input simultaneamente. Questa capacità di elaborazione in parallelo velocizza notevolmente l'addestramento su hardware moderni come le GPU. A differenza delle tipiche reti neurali convoluzionali (CNN) che si concentrano sulle caratteristiche locali attraverso kernel di dimensioni fisse, l'attenzione permette a Transformers di catturare le dipendenze a lungo raggio e le relazioni contestuali nell'intero input, sia che si tratti di testo che di patch di immagini.
I trasformatori sono diventati la base di molti modelli di IA all'avanguardia grazie alla loro efficacia nel catturare il contesto e nel gestire sequenze lunghe. La loro natura parallelizzabile ha permesso l'addestramento di modelli massicci con miliardi di parametri, come GPT-3 e GPT-4, portando a scoperte nell'IA generativa. Questa scalabilità e queste prestazioni hanno reso i Transformer centrali per il progresso di varie attività di IA, guidando l'innovazione nella ricerca e nell'industria. Molti modelli di Transformer popolari sono facilmente disponibili attraverso piattaforme come Hugging Face e implementati con framework come PyTorch e TensorFlow.
I trasformatori sono altamente versatili e alimentano numerose applicazioni AI:
Rispetto alle RNN, i trasformatori offrono una migliore gestione delle dipendenze a lungo raggio e una migliore parallelizzazione, rendendoli più adatti a dataset e modelli di grandi dimensioni. Rispetto alle CNN tradizionali, che eccellono nel catturare le gerarchie spaziali locali utilizzando le convoluzioni, i trasformatori (in particolare le ViT) possono modellare in modo più efficace le relazioni globali all'interno dei dati grazie all'autoattenzione. Tuttavia, le architetture ibride spesso combinano i punti di forza di entrambe, utilizzando le CNN per l'estrazione iniziale delle caratteristiche e i Trasformatori per la comprensione contestuale, come si vede in modelli come RT-DETR. La scelta tra queste architetture dipende spesso dall'attività specifica, dalle caratteristiche dei dati e dalle risorse computazionali disponibili, spesso coinvolgendo tecniche come il transfer learning da modelli pre-addestrati disponibili su piattaforme come Ultralytics HUB.