Glossario

GPT (Trasformatore Generativo Pre-Addestrato)

Scopri la potenza dei modelli GPT: un'intelligenza artificiale avanzata basata su trasformatori per la generazione di testi, attività NLP, chatbot, codifica e molto altro. Scopri subito le caratteristiche principali!

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I modelli GPT (Generative Pre-trained Transformer) rappresentano un importante passo avanti nell'elaborazione del linguaggio naturale (NLP), un sottocampo dell'intelligenza artificiale (AI) che si occupa di consentire alle macchine di comprendere e generare il linguaggio umano. Sviluppati principalmente da OpenAI, i GPT sono una classe di Large Language Models (LLM) costruiti sull'architettura Transformer. Inizialmente vengono "pre-addestrati" su enormi insiemi di testo e codice, imparando la grammatica, i fatti, le capacità di ragionamento e le strutture linguistiche. Successivamente, possono essere"messi a punto" su insiemi di dati più piccoli e specifici per eccellere in compiti particolari.

Cos'è un trasformatore generativo pre-addestrato (GPT)?

Un modello GPT utilizza un'architettura di rete neurale chiamata Transformer, particolarmente efficace nell'elaborazione di dati sequenziali come il testo. Vediamo come si chiama:

  • Generativo: Evidenzia la capacità principale del modello: generare un testo nuovo e coerente che imiti lo stile e il contenuto dei dati su cui è stato addestrato. A differenza dei modelli che si concentrano solo sull'analisi o sulla classificazione, i GPT creano contenuti originali.
  • Pre-addestrato: Si riferisce alla fase iniziale di addestramento, che richiede molte risorse, in cui il modello apprende la comprensione generale del linguaggio da grandi quantità di dati testuali. Queste conoscenze fondamentali rendono il modello adattabile a vari compiti specifici in seguito.
  • Trasformatore: È l'architettura della rete neurale (NN) sottostante. I trasformatori utilizzano un meccanismo di attenzione che consente loro di valutare l'importanza delle diverse parole nella sequenza di input, catturando in modo efficace il contesto e le dipendenze a lungo raggio nel testo, un miglioramento significativo rispetto alle architetture precedenti come le reti neurali ricorrenti (RNN).

Dopo il pre-addestramento, i modelli GPT possono essere messi a punto per applicazioni specializzate come la risposta alle domande, la sintesi del testo o la generazione di codice software.

Caratteristiche principali dei modelli GPT

I modelli GPT possiedono diverse caratteristiche che contribuiscono alla loro potenza e versatilità:

  • Scalabilità: I modelli GPT sono disponibili in varie dimensioni, da versioni più piccole adatte ad ambienti con risorse limitate a modelli estremamente grandi come GPT-3 e GPT-4 che offrono prestazioni all'avanguardia. Le dimensioni del modello sono spesso correlate alle capacità.
  • Versatilità: Grazie al paradigma pre-addestramento/fine-tuning, un singolo GPT pre-addestrato può essere adattato a un'ampia gamma di compiti NLP senza dover addestrare un nuovo modello da zero per ognuno di essi.
  • Apprendimento a pochi colpi e a zero colpi: I modelli GPT di grandi dimensioni spesso mostrano impressionanti capacità di apprendimento a pochi colpi e a zero colpi, il che significa che possono eseguire compiti per i quali non sono stati esplicitamente messi a punto, a volte con pochi esempi o addirittura nessuno.
  • Comprensione contestuale: L'architettura del Transformer consente alle GPT di mantenere e utilizzare il contesto in lunghi passaggi di testo, ottenendo risultati più coerenti e pertinenti.

Applicazioni reali di GPT

La tecnologia GPT è alla base di numerose applicazioni in vari settori:

  1. Creazione di contenuti: I modelli GPT sono utilizzati per la generazione di testi, per aiutare a scrivere articoli, testi di marketing, e-mail, scrittura creativa e generazione di codice. Strumenti come GitHub Copilot sfruttano i modelli GPT per l'assistenza alla codifica.
  2. AI conversazionali: costituiscono la spina dorsale di chatbot e assistenti virtuali avanzati, come ad esempio ChatGPTin grado di dialogare in modo complesso, rispondere a domande ed eseguire compiti basati su istruzioni in linguaggio naturale.
  3. Riassunto e analisi: I GPT possono riassumere rapidamente documenti o articoli lunghi(riassunto del testo) ed eseguire l'analisi del sentiment per valutare le opinioni espresse nel testo.

GPT e concetti simili

È utile distinguere la GPT dai termini correlati:

  • GPT vs. AGI: I modelli GPT sono una forma di Intelligenza Artificiale Ristretta (ANI), progettata per compiti specifici legati al linguaggio. Non si tratta di Intelligenza Artificiale Generale (AGI), che si riferisce a un'ipotetica IA con capacità cognitive simili a quelle umane in diversi ambiti.
  • GPT vs. Ultralytics YOLO: i modelli GPT sono specializzati nell'elaborazione e nella generazione di testo. Al contrario, i modelli Ultralytics YOLO , come YOLOv8sono modelli all'avanguardia incentrati su attività di computer vision (CV) come il rilevamento di oggetti, la segmentazione di immagini e la stima della posa all'interno di immagini e video. Sebbene entrambi utilizzino componenti Transformer (soprattutto i modelli CV più recenti), i loro domini primari (linguaggio vs. visione) e i loro output (testo vs. bounding box/maschere) sono fondamentalmente diversi. Puoi addestrare e distribuire i modelli Ultralytics YOLO utilizzando piattaforme come Ultralytics HUB.
Leggi tutto