Glossario

Modello di fondazione

Scopri come i modelli foundation rivoluzionano l'IA grazie ad architetture scalabili, ampio pretraining e adattabilità a diverse applicazioni.

Un Foundation Model è un modello di Intelligenza Artificiale (AI) su larga scala pre-addestrato su grandi quantità di dati non etichettati, progettato per essere adattato o messo a punto per un'ampia gamma di compiti a valle. Questi modelli, spesso basati su architetture come il Transformer, apprendono schemi, strutture e rappresentazioni generali dai dati, costituendo una base versatile per varie applicazioni specializzate senza bisogno di una formazione specifica da zero. Lo sviluppo di modelli di base rappresenta un significativo cambiamento di paradigma nel Machine Learning (ML), con l'obiettivo di costruire modelli di uso generale che possano essere efficientemente specializzati.

Caratteristiche principali

I modelli di fondazione sono definiti da diversi attributi fondamentali:

Scala: In genere sono molto grandi, coinvolgono miliardi o addirittura trilioni di parametri e sono addestrati su enormi set di dati, spesso prelevati da internet o da altre fonti estese(Big Data).
Pre-formazione: Sono sottoposti a un'intensa fase di pre-addestramento, di solito utilizzando metodi di apprendimento auto-supervisionato o non supervisionato, in cui il modello impara dalla struttura intrinseca dei dati stessi senza etichette esplicite.
Adattabilità: Un vantaggio fondamentale è la loro adattabilità. Una volta pre-addestrati, possono essere messi a punto con quantità relativamente piccole di dati etichettati per compiti specifici come l'analisi dei sentimenti, il riconoscimento di immagini o il rilevamento di oggetti, sfruttando le conoscenze generali acquisite durante il pre-addestramento. Questo processo è una forma di apprendimento per trasferimento.
Omogeneizzazione: Tendono a consolidare le funzionalità che in precedenza richiedevano più modelli specializzati in un'unica struttura adattabile, semplificando potenzialmente gli MLOp.

Come funzionano i modelli di fondazione

La creazione e l'utilizzo dei modelli di fondazione prevedono in genere due fasi:

Pre-addestramento: Il modello viene addestrato su un set di dati massiccio e diversificato. Per i modelli linguistici come il GPT-3, si tratta di prevedere la parola successiva in una frase. Per i modelli di visione, si tratta di ricostruire patch di immagini mascherate o di imparare associazioni tra immagini e testo(CLIP). Questa fase richiede risorse computazionali significative (GPU, TPU).
Messa a punto/adattamento: Il modello pre-addestrato viene poi adattato per una specifica attività a valle utilizzando un set di dati etichettati più piccolo e specifico per l'attività. Tecniche come il fine-tuning regolano i pesi del modello, mentre metodi come il prompt engineering guidano l'output del modello senza modificarne i pesi, in particolare per i Large Language Models (LLM).

Esempi e applicazioni

I modelli di fondazione abbracciano diversi ambiti:

Elaborazione del linguaggio naturale (NLP): LLM come BERT e GPT-4 ne sono un esempio lampante, in grado di generare testi, tradurli, riassumerli e altro ancora. Esempio del mondo reale: I chatbot avanzati per il servizio clienti, in grado di comprendere il contesto e fornire risposte articolate, sono spesso costruiti mettendo a punto i LLM di base.
Visione artificiale (CV): Modelli come Vision Transformer (ViT) e Segment Anything Model (SAM) fungono da modelli di base per le attività di visione. Possono essere adattati per la classificazione delle immagini, la segmentazione delle immagini e il rilevamento. Esempio del mondo reale: Gli strumenti per l'analisi delle immagini mediche possono essere sviluppati perfezionando un modello di base di visione su set di dati di radiografie o risonanze magnetiche per rilevare condizioni specifiche come i tumori.
Modelli multimodali: Modelli come CLIP o DALL-E elaborano informazioni da più modalità (ad esempio, testo e immagini) contemporaneamente. La comprensione di questi modelli è fondamentale per l'evoluzione dell'intelligenza artificiale(Comprendere i modelli linguistici di visione).

Modelli di fondazione vs. altri modelli

Modelli specifici per i compiti: A differenza dei modelli di base, il ML tradizionale spesso prevede l'addestramento di modelli da zero su set di dati specifici per singoli compiti (ad es. Ultralytics YOLO di Ultralytics solo per rilevare gli oggetti nelle immagini aeree). Sebbene sia efficace, questo metodo richiede dati etichettati e sforzi significativi per ogni nuova attività. I modelli Foundation mirano a ridurre questo aspetto attraverso l'apprendimento per trasferimento.
Modelli linguistici di grandi dimensioni (LLM): Gli LLM sono un tipo importante di modello di base progettato specificamente per compiti linguistici. Il termine "modello di base" è più ampio e comprende modelli per la visione, l'audio e altre modalità.
Modelli CV: Mentre alcuni modelli di visione di grandi dimensioni come ViT o SAM sono considerati modelli di base, molti modelli CV, incluse versioni specifiche di YOLOv8 o YOLO11 addestrati per applicazioni particolari(IA in agricoltura, IA nel settore automobilistico), sono in genere messi a punto o addestrati specificamente per questi compiti di visione piuttosto che essere modelli di base generici. Tuttavia, la tendenza a utilizzare modelli di base pre-addestrati condivide l'idea di base di sfruttare le caratteristiche generali.

Formazione e risorse

Il pre-addestramento dei modelli di fondazione è computazionalmente costoso, spesso richiede cluster massicci di GPU o TPU e un significativo sforzo ingegneristico, di solito intrapreso da grandi laboratori di ricerca o aziende come Google, Meta AI e OpenAI. Tuttavia, una volta pre-addestrati, questi modelli possono essere adattati in modo più efficiente. Piattaforme come Ultralytics HUB forniscono strumenti per addestrare modelli personalizzati, gestire datasetUltralytics Datasets) e distribuire soluzioni(Model Deployment Options), spesso sfruttando pesi pre-addestrati che racchiudono conoscenze fondamentali. Un adattamento efficace richiede comunque un'attenta regolazione degli iperparametri e potenzialmente un aumento dei dati.

Importanza e futuro

I modelli di fondazione stanno cambiando il panorama dell'IARoboflow sui modelli di fondazione). Accelerano lo sviluppo, consentono nuove applicazioni e sollevano importanti considerazioni sull'etica dell'IA, sui pregiudizi e sull'accesso al calcolo. Istituti di ricerca come il Center for Research on Foundation Models (CRFM) di Stanford si dedicano allo studio delle loro capacità e del loro impatto sulla società. Il futuro probabilmente prevede modelli di fondazione più potenti, efficienti e potenzialmente multimodali che guidano l'innovazione nella scienza, nell'industria e nella vita quotidiana(Casi d'uso dell'IA).

Modello di fondazione

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Caratteristiche principali

Come funzionano i modelli di fondazione

Esempi e applicazioni

Modelli di fondazione vs. altri modelli

Formazione e risorse

Importanza e futuro

Leggi altri blog

Unisciti alla comunità di Ultralytics

Modello di fondazione

Addestra i modelli YOLO semplicementecon Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Caratteristiche principali

Come funzionano i modelli di fondazione

Esempi e applicazioni

Modelli di fondazione vs. altri modelli

Formazione e risorse

Importanza e futuro

Leggi altri blog

Unisciti alla comunità di Ultralytics

Addestra i modelli YOLO semplicemente
con Ultralytics HUB