Glossario

Modelli da sequenza a sequenza

Scopri come i modelli sequenza-sequenza trasformano gli input in sequenze di output, alimentando attività di IA come la traduzione, i chatbot e il riconoscimento vocale.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I modelli Sequence-to-Sequence (Seq2Seq) sono una classe di architetture di deep learning progettate per trasformare una sequenza di input in una sequenza di output, dove le lunghezze delle sequenze di input e di output possono essere diverse. Inizialmente sviluppati con le reti neurali ricorrenti (RNN), questi modelli sono alla base di molti compiti che coinvolgono dati sequenziali, in particolare nell'elaborazione del linguaggio naturale (NLP). L'idea di base è quella di mappare sequenze come frasi, clip audio o dati di serie temporali da un dominio all'altro.

Come funzionano i modelli sequenza-sequenza

I modelli Seq2Seq sono in genere costituiti da due componenti principali: un codificatore e un decodificatore.

  1. Codificatore: Questa parte elabora l'intera sequenza di input (ad esempio, una frase in francese) passo dopo passo. Ad ogni passo, aggiorna il suo stato nascosto interno. Lo stato nascosto finale, spesso chiamato "vettore di contesto" o "vettore di pensiero", mira a catturare un riassunto o l'essenza della sequenza in ingresso. I primi modelli Seq2Seq utilizzavano RNN o LSTM per questo scopo, come descritto nel documento originale Sequence to Sequence Learning.
  2. Decodificatore: Questo componente prende il vettore di contesto finale dal codificatore e genera passo dopo passo la sequenza di output (ad esempio, la frase tradotta in English). Utilizza il vettore di contesto come stato iniziale e produce un elemento della sequenza di output a ogni passo temporale, aggiornando il proprio stato nascosto.

Un'innovazione chiave che ha migliorato significativamente le prestazioni di Seq2Seq, soprattutto per le sequenze più lunghe, è stato il meccanismo di attenzione. L'attenzione permette al decodificatore di guardare a diverse parti degli stati nascosti della sequenza di ingresso (non solo al vettore di contesto finale) quando genera ogni elemento di uscita, valutandone l'importanza in modo dinamico, come proposto da Bahdanau et al.

Rilevanza ed evoluzione

I modelli Seq2Seq hanno rappresentato un importante passo avanti, in particolare per le attività in cui le lunghezze di input e output sono variabili e l'allineamento è complesso. Hanno fornito un quadro flessibile per gestire diversi problemi di trasformazione delle sequenze. Pur essendo fondamentali, i modelli Seq2Seq originali basati su RNN hanno dovuto affrontare problemi di dipendenze a lungo raggio. Questo ha portato allo sviluppo dei modelli Transformer, che si basano interamente sui meccanismi di attenzione e sull'elaborazione parallela, sostituendo in larga misura le RNN per ottenere prestazioni all'avanguardia in molti compiti di sequenza. Tuttavia, il concetto centrale di encoder-decoder rimane influente. Framework come PyTorch e TensorFlow forniscono strumenti robusti per costruire sia i tradizionali modelli Seq2Seq che i moderni Transformer.

Applicazioni in AI e ML

I modelli Seq2Seq, compresi i loro moderni successori basati su Transformer, sono utilizzati in numerose applicazioni:

  • Traduzione automatica: Traduzione di testi da una lingua di partenza a una lingua di arrivo (ad esempio, servizi come Google Translate).
  • Riassunto del testo: Generare riassunti più brevi da articoli o documenti lunghi.
  • Chatbot e risposte alle domande: Generazione di risposte conversazionali o di risposte basate su testo o domande in ingresso. Molti chatbot moderni sfruttano architetture Transformer avanzate come la GPT-4.
  • Riconoscimento vocale: Conversione di sequenze di caratteristiche audio in sequenze di testo (trascrizione).
  • Didascalie di immagini: Generazione di descrizioni testuali (sequenze di parole) per le immagini in ingresso. Si tratta di un'attività distinta da quella di rilevamento degli oggetti svolta da modelli come Ultralytics YOLOsi tratta di mappare l'input visivo in un output sequenziale. La ricerca di istituti come lo Stanford NLP Group esplora spesso queste aree.

Sebbene i modelli Seq2Seq siano principalmente associati all'NLP, i meccanismi di attenzione ad essi ispirati stanno trovando impiego anche nella computer vision, ad esempio all'interno di alcuni componenti dei modelli di rilevamento come RT-DETR o nei Vision Transformers. Puoi esplorare vari modelli su piattaforme come Hugging Face.

Leggi tutto