Esplora l'architettura Transformer e il meccanismo di auto-attenzione. Scopri come alimentano modelli di IA come RT-DETR Ultralytics per una precisione superiore.
Un Transformer è un'architettura di deep learning che si basa su un meccanismo chiamato auto-attenzione per elaborare dati di input sequenziali , come il linguaggio naturale o le caratteristiche visive. Introdotto originariamente dai Google nel fondamentale articolo Attention Is All You Need, il Transformer ha rivoluzionato il campo dell' intelligenza artificiale (AI) eliminando i limiti dell'elaborazione sequenziale delle precedenti reti neurali ricorrenti (RNN). Al contrario, i Transformer analizzano intere sequenze di dati simultaneamente, consentendo una massiccia parallelizzazione e tempi di addestramento significativamente più rapidi su hardware moderni come le GPU.
L'innovazione principale del Transformer è il meccanismo di auto-attenzione. Questo permette al modello di ponderare l'importanza delle diverse parti dei dati di input l'una rispetto all'altra. Ad esempio, in una frase, il modello può imparare che la parola "banca" è più strettamente correlata a "denaro" che a "fiume" in base al contesto circostante.
Questa architettura è generalmente costituita da due componenti principali:
Nel campo della visione artificiale (CV), i modelli utilizzano solitamente una variante chiamata Vision Transformer (ViT). Invece di elaborare token di testo, l'immagine viene suddivisa in patch di dimensioni fisse (ad esempio, 16x16 pixel). Queste patch vengono appiattite e trattate come una sequenza, consentendo al modello di catturare il "contesto globale" - comprendendo le relazioni tra parti distanti di un'immagine - in modo più efficace rispetto a una rete neurale convoluzionale standard (CNN).
È importante distinguere l'architettura Transformer dai termini correlati:
La versatilità dei trasformatori ha portato alla loro adozione in vari settori industriali:
Mentre le CNN hanno tradizionalmente dominato il rilevamento degli oggetti, i modelli basati su Transformer come il Real-Time Detection Transformer (RT-DETR) sono emersi come potenti alternative. RT-DETR la velocità delle backbone CNN con la precisione delle teste di decodifica Transformer.
Tuttavia, i modelli Transformer puri possono essere computazionalmente pesanti. Per molte applicazioni edge, modelli ibridi altamente ottimizzati come YOLO26, che integrano meccanismi di attenzione efficienti con un'elaborazione convoluzionale rapida, offrono un equilibrio superiore tra velocità e precisione. È possibile gestire l' addestramento e l'implementazione di questi modelli facilmente tramite Ultralytics , che semplifica il flusso di lavoro dall'annotazione del set di dati all'esportazione del modello.
L'esempio seguente mostra come eseguire l'inferenza utilizzando un modello basato su Transformer all'interno del
ultralytics pacchetto. Questo codice carica un RT-DETR pre-addestrato e rileva gli oggetti in un'immagine.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()
Per ulteriori approfondimenti sui fondamenti matematici, PyTorch sui livelli Transformer fornisce dettagli tecnici, mentre la guida IBM ai Transformer offre una prospettiva aziendale di alto livello .