Glossario

Modello linguistico di grandi dimensioni (LLM)

Scopri come i Large Language Models (LLM) rivoluzionano l'AI con l'NLP avanzato, alimentando chatbot, creazione di contenuti e molto altro. Impara i concetti chiave!

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I modelli linguistici di grandi dimensioni (LLM) rappresentano un progresso significativo nel campo dell'intelligenza artificiale (AI), in particolare nell'ambito dell'elaborazione del linguaggio naturale (NLP). Questi modelli sono caratterizzati da una scala immensa, spesso contenente miliardi di parametri, e vengono addestrati su vasti set di dati comprendenti testo e codice. Questo addestramento approfondito consente ai LLM di comprendere il contesto, generare testi coerenti e simili a quelli umani, tradurre le lingue, rispondere alle domande e svolgere un'ampia gamma di compiti basati sul linguaggio con una notevole competenza. Si tratta di un tipo specifico di modello di Deep Learning (DL), che guida l'innovazione in numerose applicazioni.

Definizione

Un Large Language Model è fondamentalmente una sofisticata rete neurale (NN), tipicamente basata sull'architettura Transformer. Il termine "grande" in LLM si riferisce all'enorme numero di parametri - variabili regolate durante l'addestramento - che possono variare da miliardi a trilioni. Un numero maggiore di parametri consente al modello di apprendere modelli più complessi dai dati. I LLM imparano questi modelli attraverso l'apprendimento non supervisionato su enormi corpora di testo raccolti da internet, libri e altre fonti. Questo processo li aiuta a comprendere la grammatica, i fatti, le capacità di ragionamento e persino i pregiudizi presenti nei dati. Le capacità principali includono la previsione delle parole successive in una frase, che costituisce la base per compiti come la generazione di testi e la risposta alle domande. Tra gli esempi più noti ci sono la serie GPT di OpenAI, come GPT-4, i modelli Llama di Meta AI, come Llama 3, Gemini di Google DeepMind e Claude di Anthropic.

Applicazioni

La versatilità delle LLM consente di applicarle in diversi ambiti. Ecco due esempi concreti:

  • IA conversazionale: Le LLM alimentano chatbot e assistenti virtuali sofisticati come ChatGPT e Google Assistant, consentendo interazioni più naturali e consapevoli del contesto rispetto ai vecchi sistemi basati su regole. Sono in grado di gestire le richieste di assistenza clienti, fornire informazioni e avviare dialoghi complessi.
  • Creazione di contenuti e riassunto: Le aziende e i privati utilizzano gli LLM per generare testi di marketing, scrivere articoli, creare snippet di codice e riassumere documenti lunghi(Text Summarization). Strumenti come Microsoft Copilot integrano gli LLM per assistere gli utenti in varie attività di scrittura e codifica.

Concetti chiave

La comprensione delle LLM implica la conoscenza di diversi concetti correlati:

  • Modelli di fondazione: Gli LLM sono considerati un tipo di modello di base, cioè sono modelli di grandi dimensioni addestrati su dati ampi che possono essere adattati(messi a punto) per vari compiti a valle.
  • Meccanismi di attenzione: Fondamentale per l'architettura del Transformer, l'attenzione permette al modello di valutare l'importanza delle diverse parole nella sequenza di input quando genera l'output, consentendo una migliore gestione delle dipendenze a lungo raggio e del contesto. L'articolo fondamentale che introduce questo meccanismo è"Attention Is All You Need".
  • Ingegneria tempestiva: Si tratta della pratica di progettare input efficaci (prompt) per guidare il LLM verso la generazione dell'output desiderato. La qualità del prompt influenza in modo significativo la risposta del modello.
  • Tokenizzazione: I LLM elaborano il testo scomponendolo in unità più piccole chiamate token (parole, sottoparole o caratteri). Il modo in cui il testo viene tokenizzato influisce sulle prestazioni del modello e sul costo computazionale.

Sebbene gli LLM eccellano nei compiti linguistici, si differenziano dai modelli progettati principalmente per la Computer Vision (CV), come i modelli Ultralytics YOLO utilizzati per il rilevamento degli oggetti. Tuttavia, l'ascesa dei modelli multimodali e dei modelli linguistici di visione sta colmando questo divario, combinando la comprensione del linguaggio con l'elaborazione visiva. Piattaforme come Ultralytics HUB facilitano l'addestramento e l'implementazione di vari modelli di intelligenza artificiale, compresi quelli per la visione.

Leggi tutto