Glossario

Modello linguistico di grandi dimensioni (LLM)

Scopri come i Large Language Models (LLM) rivoluzionano l'AI con l'NLP avanzato, alimentando chatbot, creazione di contenuti e molto altro. Impara i concetti chiave!

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I modelli linguistici di grandi dimensioni (LLM) rappresentano un progresso significativo nel campo dell'intelligenza artificiale (AI), in particolare nell'ambito dell'elaborazione del linguaggio naturale (NLP). Questi modelli sono caratterizzati da una scala immensa, spesso contenente miliardi di parametri, e vengono addestrati su vasti set di dati comprendenti testo e codice. Questo addestramento approfondito consente ai LLM di comprendere il contesto, generare testi coerenti e simili a quelli umani, tradurre le lingue, rispondere alle domande e svolgere un'ampia gamma di compiti basati sul linguaggio con una notevole competenza. Si tratta di un tipo specifico di modello di Deep Learning (DL) che guida l'innovazione in numerose applicazioni e costituisce una pietra miliare della moderna IA generativa.

Definizione

Un Large Language Model è fondamentalmente una sofisticata rete neurale (NN), tipicamente basata sull'architettura Transformer, introdotta nell'influente articolo"Attention Is All You Need". Il termine "grande" in LLM si riferisce all'enorme numero di parametri - variabiliregolate durante l'addestramento - che possono variare da miliardi a trilioni. In genere, un numero maggiore di parametri consente al modello di apprendere modelli più complessi dai dati.

I LLM imparano questi schemi attraverso l'apprendimento non supervisionato su enormi corpora di testo raccolti da internet, libri e altre fonti, spesso definiti Big Data. Questo processo li aiuta a comprendere la grammatica, i fatti, le capacità di ragionamento e persino le sfumature come il tono e lo stile, ma può anche portarli ad apprendere i pregiudizi presenti nei dati di formazione. Una capacità fondamentale sviluppata durante l'addestramento è la previsione delle parole successive in una frase. Questa capacità predittiva costituisce la base per compiti più complessi come la generazione di testi, la modellazione del linguaggio e la risposta alle domande.

Esempi noti sono la serie GPT di OpenAI (come GPT-4), i modelli Llama di Meta AI come Llama 3, Gemini di Google DeepMind, e Claude di Anthropic.

Applicazioni

La versatilità delle LLM consente di applicarle in diversi ambiti. Ecco due esempi concreti:

Concetti chiave

La comprensione delle LLM implica la conoscenza di diversi concetti correlati:

  • Modelli di fondazione: Gli LLM sono spesso considerati modelli di base perché sono stati addestrati su dati ampi e possono essere adattati (o messi a punto) per un'ampia gamma di attività a valle senza dover essere addestrati da zero.
  • Meccanismi di attenzione: In particolare, questi meccanismi permettono al modello di valutare l'importanza di diverse parole (token) nella sequenza di input quando elabora una particolare parola. Questo è fondamentale per comprendere il contesto e le relazioni all'interno del testo.
  • Ingegneria tempestiva: Si tratta dell'arte e della scienza di progettare prompt di input efficaci per guidare un LLM verso la generazione dell'output desiderato. La qualità del prompt influenza in modo significativo l'accuratezza e la pertinenza della risposta. Tecniche come il prompt a catena di pensieri aiutano a migliorare il ragionamento in compiti complessi.
  • Tokenizzazione: Prima di elaborare il testo, i LLM lo suddividono in unità più piccole chiamate token. Questi token possono essere parole, sottoparole o caratteri. La tokenizzazione converte il testo grezzo in un formato numerico che il modello può comprendere. Piattaforme come Hugging Face forniscono strumenti e informazioni su diverse strategie di tokenizzazione.

LLM e modelli di visione artificiale

Sebbene i LLM eccellano nei compiti linguistici, differiscono in modo significativo dai modelli progettati principalmente per la Computer Vision (CV). I modelli CV, come Ultralytics YOLO di Ultralytics (ad es, YOLOv8YOLOv9, YOLOv10 e YOLO11), sono specializzati nell'interpretazione di informazioni visive provenienti da immagini o video. I loro compiti includono il rilevamento di oggetti, la classificazione di immagini e la segmentazione di istanze.

Tuttavia, il confine si sta attenuando con l'avvento dei modelli multimodali e dei modelli linguistici di visione (VLM). Questi modelli, come GPT-4o di OpenAI o Gemini di Google, integrano la comprensione tra diverse modalità (ad esempio, testo e immagini), consentendo di svolgere attività come la descrizione di immagini o la risposta a domande su contenuti visivi.

Piattaforme come Ultralytics HUB forniscono strumenti e infrastrutture per l'addestramento e la distribuzione di vari modelli di IA, compresi quelli per le attività di visione, facilitando lo sviluppo di diverse applicazioni di IA. Man mano che gli LLM e altri modelli di IA diventano più potenti, le considerazioni sull'etica dell'IA, sulle distorsioni degli algoritmi e sulla privacy dei dati diventano sempre più importanti. Per maggiori informazioni sui concetti di IA e sui confronti tra modelli, esplora la documentazione diUltralytics e le pagine di confronto tra modelli.

Leggi tutto