Trasformatore

Scoprite come le architetture Transformer rivoluzionano l'IA, consentendo di ottenere risultati rivoluzionari in NLP, computer vision e attività di ML avanzate.

Un Transformer è una rivoluzionaria architettura di rete neurale che è diventata una pietra miliare della moderna Intelligenza Artificiale (IA), soprattutto nell'elaborazione del linguaggio naturale (NLP) e, più recentemente, nella Computer Vision (CV). Introdotta dai ricercatori di Google nell'articolo del 2017 "Attention Is All You Need", la sua innovazione chiave è il meccanismo di auto-attenzione, che consente al modello di pesare l'importanza di diverse parole o parti di una sequenza di input. Ciò consente di catturare le dipendenze a lungo raggio e le relazioni contestuali in modo più efficace rispetto alle architetture precedenti. Il design consente inoltre una parallelizzazione massiccia, rendendo possibile l'addestramento di modelli molto più grandi su insiemi di dati massicci, portando alla nascita dei Large Language Models (LLM).

Come funzionano i trasformatori

A differenza dei modelli sequenziali come le reti neurali ricorrenti (RNN), i Transformer elaborano intere sequenze di dati in una sola volta. L'idea di base è quella di gestire tutti gli elementi in parallelo, il che accelera notevolmente l'addestramento su hardware moderno come le GPU.

Per comprendere l'ordine della sequenza senza ricorsi, i Transformer utilizzano una tecnica chiamata codifica posizionale, che aggiunge informazioni sulla posizione di ogni elemento (ad esempio, una parola in una frase) al suo embedding. Gli strati di autoattenzione elaborano poi questi incorporamenti, consentendo a ogni elemento di "guardare" ogni altro elemento della sequenza e di determinare quali sono i più rilevanti per la comprensione del suo significato. Questa consapevolezza del contesto globale è un grande vantaggio per i compiti complessi. Framework come PyTorch e TensorFlow forniscono un ampio supporto per la costruzione di modelli basati su Transformer.

Applicazioni dei trasformatori

L'impatto dei Transformers si estende a numerosi settori, favorendo il progresso sia nei compiti linguistici che in quelli visivi.

Traduzione e generazione linguistica: Servizi come Google Translate utilizzano modelli basati su Transformer per una traduzione automatica di alta qualità. Il modello può considerare l'intera frase di partenza per produrre una traduzione più fluida e accurata. Allo stesso modo, modelli come GPT-4 eccellono nella generazione del testo, comprendendo il contesto per creare paragrafi coerenti, scrivere articoli o alimentare chatbot avanzati.
Visione artificiale: Il Vision Transformer (ViT) adatta l'architettura ai compiti basati sulle immagini. Tratta un'immagine come una sequenza di patch e utilizza l'autoattenzione per modellare le relazioni tra di esse. Questo approccio è utilizzato in modelli come RT-DETR per il rilevamento degli oggetti, dove la comprensione del contesto globale di una scena può aiutare a identificare gli oggetti con maggiore precisione, soprattutto in ambienti ingombrati. È possibile vedere un confronto tra RT-DETR e YOLOv8 per comprenderne le differenze architettoniche.

Trasformatore rispetto ad altre architetture

È utile distinguere i trasformatori da altre architetture di reti neurali comuni:

Trasformatori vs. RNN: Le RNN elaborano i dati in modo sequenziale, il che le rende intrinsecamente lente e suscettibili al problema del gradiente che svanisce, facendo loro dimenticare le informazioni precedenti in lunghe sequenze. I trasformatori superano questo problema grazie all'elaborazione parallela e all'autoattenzione, catturando le dipendenze a lungo raggio in modo molto più efficace.
Trasformatori e CNN: Le reti neurali convoluzionali (CNN) sono molto efficienti per le attività di visione, in quanto utilizzano filtri convoluzionali per identificare modelli locali in dati simili a griglie come i pixel. Sono alla base di modelli come la famiglia Ultralytics YOLO. I trasformatori, invece, catturano relazioni globali, ma spesso richiedono più dati e risorse di calcolo. I modelli ibridi, che combinano una struttura portante CNN con strati Transformer, mirano a ottenere il meglio di entrambi i mondi.

Varianti di trasformatori efficienti

Il costo computazionale dell'autoattenzione completa del Transformer originale cresce in modo quadratico con la lunghezza della sequenza, rendendolo difficile per sequenze molto lunghe. Questo ha portato allo sviluppo di varianti più efficienti.

Longformer: Utilizza un meccanismo di attenzione a finestra scorrevole combinato con un'attenzione globale su token specifici per ridurre la complessità computazionale.
Riformatore: Impiega tecniche come l'hashing sensibile alla località per approssimare l'attenzione completa, rendendola più efficiente in termini di memoria.
Transformer-XL: introduce un meccanismo di ricorrenza che consente al modello di apprendere le dipendenze oltre una lunghezza fissa, particolarmente utile per la modellazione linguistica autoregressiva.

Questi progressi continuano ad ampliare l'applicabilità dei Transformer a nuovi problemi. Strumenti e piattaforme come Hugging Face e Ultralytics HUB facilitano agli sviluppatori l'accesso e la distribuzione di questi potenti modelli.

Trasformatore

Soluzione flessibile di licensing aziendale per alimentare la vostra innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestrare i modelli YOLO in modo semplice con Ultralytics HUB

Come funzionano i trasformatori

Applicazioni dei trasformatori

Trasformatore rispetto ad altre architetture

Varianti di trasformatori efficienti

Per saperne di più in questa categoria

Google AlphaEarth utilizza i dati di osservazione per la mappatura globale

FastVLM: Apple presenta il suo nuovo modello di linguaggio di visione veloce

L'apprendimento automatico human-in-the-loop (HITL) spiegato

Unitevi alla comunità di Ultralytics