Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Transformer

Esplora l'architettura Transformer e il meccanismo di auto-attenzione. Scopri come alimentano modelli di IA come RT-DETR Ultralytics per una precisione superiore.

Un Transformer è un'architettura di deep learning che si basa su un meccanismo chiamato auto-attenzione per elaborare dati di input sequenziali , come il linguaggio naturale o le caratteristiche visive. Introdotto originariamente dai Google nel fondamentale articolo Attention Is All You Need, il Transformer ha rivoluzionato il campo dell' intelligenza artificiale (AI) eliminando i limiti dell'elaborazione sequenziale delle precedenti reti neurali ricorrenti (RNN). Al contrario, i Transformer analizzano intere sequenze di dati simultaneamente, consentendo una massiccia parallelizzazione e tempi di addestramento significativamente più rapidi su hardware moderni come le GPU.

Come funzionano i Transformer

L'innovazione principale del Transformer è il meccanismo di auto-attenzione. Questo permette al modello di ponderare l'importanza delle diverse parti dei dati di input l'una rispetto all'altra. Ad esempio, in una frase, il modello può imparare che la parola "banca" è più strettamente correlata a "denaro" che a "fiume" in base al contesto circostante.

Questa architettura è generalmente costituita da due componenti principali:

  • Codificatore: elabora i dati di input in una rappresentazione numerica ricca o incorporata.
  • Decodificatore: utilizza l'output del codificatore per generare il risultato finale, come una frase tradotta o un riquadro di delimitazione previsto.

Nel campo della visione artificiale (CV), i modelli utilizzano solitamente una variante chiamata Vision Transformer (ViT). Invece di elaborare token di testo, l'immagine viene suddivisa in patch di dimensioni fisse (ad esempio, 16x16 pixel). Queste patch vengono appiattite e trattate come una sequenza, consentendo al modello di catturare il "contesto globale" - comprendendo le relazioni tra parti distanti di un'immagine - in modo più efficace rispetto a una rete neurale convoluzionale standard (CNN).

Trasformatori vs. Concetti correlati

È importante distinguere l'architettura Transformer dai termini correlati:

  • Meccanismo di attenzione: si tratta del concetto generale di concentrarsi su parti specifiche dei dati. Il Transformer è un'architettura specifica costruita interamente attorno a livelli di attenzione, mentre altri modelli potrebbero utilizzare l'attenzione solo come un piccolo complemento.
  • Modello linguistico di grandi dimensioni (LLM): Termini come "GPT" si riferiscono a modelli specifici addestrati su grandi quantità di testo. Quasi tutti i moderni LLM utilizzano l' architettura Transformer come motore di base.

Applicazioni nel mondo reale

La versatilità dei trasformatori ha portato alla loro adozione in vari settori industriali:

  1. Imaging medico: nell' AI in ambito sanitario, i trasformatori sono utilizzati per compiti complessi come l'analisi di immagini mediche. La loro capacità di comprendere le relazioni spaziali globali aiuta a rilevare anomalie sottili nelle scansioni MRI o TC ad alta risoluzione che le CNN incentrate sulle caratteristiche locali potrebbero non rilevare.
  2. Sistemi autonomi: per i veicoli autonomi, comprendere la traiettoria dei pedoni e degli altri veicoli è fondamentale. I trasformatori eccellono nella comprensione dei video tracciando gli oggetti nel tempo e prevedendo i movimenti futuri per garantire una navigazione sicura.

Rilevamento di oggetti con i trasformatori

Mentre le CNN hanno tradizionalmente dominato il rilevamento degli oggetti, i modelli basati su Transformer come il Real-Time Detection Transformer (RT-DETR) sono emersi come potenti alternative. RT-DETR la velocità delle backbone CNN con la precisione delle teste di decodifica Transformer.

Tuttavia, i modelli Transformer puri possono essere computazionalmente pesanti. Per molte applicazioni edge, modelli ibridi altamente ottimizzati come YOLO26, che integrano meccanismi di attenzione efficienti con un'elaborazione convoluzionale rapida, offrono un equilibrio superiore tra velocità e precisione. È possibile gestire l' addestramento e l'implementazione di questi modelli facilmente tramite Ultralytics , che semplifica il flusso di lavoro dall'annotazione del set di dati all'esportazione del modello.

Python : utilizzo di RT-DETR

L'esempio seguente mostra come eseguire l'inferenza utilizzando un modello basato su Transformer all'interno del ultralytics pacchetto. Questo codice carica un RT-DETR pre-addestrato e rileva gli oggetti in un'immagine.

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

Per ulteriori approfondimenti sui fondamenti matematici, PyTorch sui livelli Transformer fornisce dettagli tecnici, mentre la guida IBM ai Transformer offre una prospettiva aziendale di alto livello .

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora