I modelli Foundation rappresentano un significativo cambiamento di paradigma nell'Intelligenza Artificiale (IA), caratterizzati da una scala massiccia e dall'addestramento su set di dati vasti e diversificati. A differenza dei tradizionali modelli di machine learning (ML) progettati per compiti specifici, i modelli foundation sono pre-addestrati su un'ampia gamma di dati, consentendo loro di essere adattati - o messi a punto - perun'ampia gamma di applicazioni a valle con un numero relativamente basso di dati specifici. Questo approccio, che spesso sfrutta l'apprendimento per trasferimento, accelera lo sviluppo dell'IA e rende più accessibili potenti capacità. Il termine è stato reso popolare dallo Stanford Institute for Human-Centered Artificial Intelligence (HAI).
Caratteristiche principali dei modelli di fondazione
I modelli di fondazione sono definiti da tre caratteristiche principali: scala, generalità e adattabilità.
- Scala: Vengono addestrati su insiemi di dati su scala web contenenti testo, immagini, codice e altri tipi di dati, spesso con miliardi o trilioni di punti dati. In genere possiedono miliardi di parametri e richiedono notevoli risorse computazionali (GPU) per l'addestramento.
- Generalità: L'ampio pre-addestramento conferisce a questi modelli un'ampia comprensione degli schemi, della sintassi, della semantica e del contesto dei dati di addestramento. Ciò consente loro di ottenere buone prestazioni in compiti per i quali non sono stati addestrati esplicitamente, a volte attraverso l'apprendimento a zero o a pochi colpi.
- Adattabilità: Il loro punto di forza sta nella capacità di essere adattati a compiti specifici attraverso la messa a punto. Ciò comporta un addestramento aggiuntivo su un set di dati più piccolo e specifico per il compito, riducendo significativamente i dati e il tempo necessari rispetto all'addestramento di un modello da zero. Architetture come il Transformer, note per la gestione di dati sequenziali e per la cattura di dipendenze a lungo raggio, sono comunemente utilizzate, in particolare nell'elaborazione del linguaggio naturale (NLP) e sempre più spesso nella computer vision (CV).
Applicazioni ed esempi
La versatilità dei modelli di fondazione spinge l'innovazione in numerosi campi.
- Elaborazione del linguaggio naturale: Modelli come GPT-4 e BERT eccellono in compiti come la generazione di testi, la traduzione, la sintesi e l'alimentazione di sofisticati chatbot. Ad esempio, un'azienda di servizi alla clientela potrebbe mettere a punto un modello linguistico pre-addestrato come BERT sui suoi ticket di assistenza per creare un sistema interno di risposta alle domande estremamente accurato.
- Visione artificiale: I modelli di base della visione come CLIP (Contrastive Language-Image Pre-training) e il Segment Anything Model (SAM) gestiscono compiti come la classificazione delle immagini, il rilevamento degli oggetti e la segmentazione delle immagini. Ad esempio, un'azienda tecnologica del settore agricolo potrebbe adattare il SAM , perfezionandolo sulle immagini dei droni per segmentare con precisione i diversi tipi di colture o identificare le aree colpite da malattie, richiedendo molti meno dati etichettati rispetto ai tradizionali approcci di apprendimento supervisionato.
- Applicazioni multimodali: I modelli vengono sempre più addestrati su più tipi di dati (ad esempio, testo e immagini), consentendo di svolgere attività come la generazione di immagini da descrizioni testuali(text-to-image) o la risposta a domande sulle immagini.
Modelli di fondazione vs. modelli tradizionali
La differenza principale sta nella portata e nella riutilizzabilità. I modelli di ML tradizionali sono in genere addestrati per un singolo compito specifico utilizzando un set di dati su misura. Se si presenta un nuovo compito, spesso è necessario costruire e addestrare un nuovo modello da zero. I modelli Foundation, invece, forniscono una base riutilizzabile. La loro ampia pre-formazione cattura le conoscenze generali, che possono poi essere specializzate in modo efficiente.
Questo paradigma offre vantaggi come la riduzione della necessità di raccogliere e annotare i dati per ogni nuovo compito e un'implementazione potenzialmente più rapida dei modelli. Tuttavia, le sfide includono l'immenso costo computazionale e l'energia richiesta per il pre-addestramento, il rischio di ereditare e amplificare i pregiudizi presenti nei dati di addestramento e importanti considerazioni etiche riguardanti il loro potenziale uso improprio e l'impatto sulla società. Piattaforme come Ultralytics HUB mirano a semplificare il processo di accesso, formazione e distribuzione di modelli avanzati di IA, aiutando gli utenti a sfruttare efficacemente queste potenti tecnologie.