Controllo verde
Link copiato negli appunti

OpenAI o1: Una nuova serie di modelli OpenAI per il ragionamento dell'AI

Scopri i nuovi modelli OpenAI o1 e cosa li rende speciali. Daremo anche un'occhiata al loro funzionamento e al loro impatto sul futuro dell'IA.

La comunità dell'intelligenza artificiale è in fermento per le speculazioni sul prossimo passo dei modelli GPT di OpenAI, a cui molti si riferiscono come al "Progetto Fragola". Il motivo è che se chiedi a GPT-4o quante R ci sono nella parola "fragola", ti dirà che ci sono due R nella parola"fragola". Può sembrare strano, considerando la potenza di GPT-4o. Tuttavia, il modello è costruito per elaborare il sottotesto, non le parole esatte. Si dice che il prossimo modello avrà lo scopo di risolvere questo problema. Sam Altman ha alimentato ulteriormente queste voci pubblicando immagini di fragole sul suo account X (precedentemente noto come Twitter).

Con l'ultimo annuncio di OpenAI di giovedì 12 settembre, abbiamo finalmente una risposta alle speculazioni! È stata rilasciata OpenAI o1, una nuova serie di modelli AI progettati per rallentare e pensare prima di rispondere. È interessante notare che OpenAI o1 è in grado di ragionare meglio e di rispondere correttamente alla domanda sulle fragole! In questo articolo parleremo di cos'è OpenAI o1, come funziona, dove può essere utilizzato e cosa significa per il futuro dell'IA. Iniziamo!

Figura 1. Un esempio di richiesta di OpenAI o1 sulle fragole.

I nuovi progressi dell'IA di OpenAI

Nel luglio del 2024, i dirigenti di OpenAI hanno dichiarato che la ricerca di OpenAI si sta avvicinando a un livello umano di risoluzione dei problemi, definito livello 2 dell'IA. È chiaro che questo livello si concentra sul ragionamento, dato che OpenAI presenta la sua nuova serie di modelli, OpenAI o1, che pensa prima di rispondere. OpenAI o1 è un nuovo LLM (large language model), un modello di intelligenza artificiale che comprende e genera testi simili a quelli umani imparando modelli da enormi quantità di dati linguistici. È stato progettato per gestire problemi complessi che richiedono un ragionamento approfondito. 

Figura 2. La prospettiva di OpenAI sulle fasi dell'IA.

Il modello è stato addestrato utilizzando l'apprendimento per rinforzo, una tecnica in cui il modello impara a prendere decisioni migliori attraverso prove ed errori, ricevendo premi o penalità per le sue azioni. L'algoritmo di apprendimento per rinforzo aiuta il modello a pensare in modo più efficace seguendo una catena di pensieri. OpenAI ha anche condiviso il fatto che le prestazioni di o1 continuano a migliorare con l'aumento dell'apprendimento per rinforzo durante l'addestramento e con l'aumento del tempo trascorso a "pensare" durante la risoluzione dei problemi, dimostrando che sia l'addestramento prolungato che l'elaborazione ponderata contribuiscono a potenziare le capacità del modello.

Sebbene OpenAI o1 rappresenti un progresso significativo per il ragionamento complesso, è ancora un modello iniziale e manca di alcune funzionalità che rendono utile ChatGPT , come la navigazione sul web o il caricamento di file e immagini. Per molti compiti comuni, GPT-4o potrebbe essere ancora più capace per il momento. Tuttavia, OpenAI o1 segna un grande passo in avanti nella capacità dell'intelligenza artificiale di gestire ragionamenti complessi, ed è per questo che OpenAI sta iniziando una nuova serie chiamandola OpenAI o1.

Come i nuovi modelli OpenAI migliorano il ragionamento dell'intelligenza artificiale

OpenAI o1 può essere utilizzato per compiti come la decodifica di codici cifrati, la risoluzione di sfide di programmazione, la risposta a problemi matematici, la risoluzione di cruciverba e persino la gestione di argomenti complessi nel campo della scienza, della sicurezza e della sanità. In una divertente allusione al nome in codice del progetto, OpenAI ha dimostrato le capacità di ragionamento del modello decifrando un cifrario che rivelava il messaggio "Ci sono tre R nelle fragole". 

Oltre a risolvere i cifrari, OpenAI o1 è anche abile nel coding. Si comporta bene nelle sfide di programmazione competitive come quelle di Codeforces, una piattaforma in cui i programmatori risolvono complessi problemi di codifica in condizioni di tempo. In queste sfide, il modello raggiunge punteggi Elo elevati (un sistema di punteggio che misura i livelli di abilità in base alle prestazioni contro altri concorrenti) e supera i modelli precedenti. Inoltre, eccelle in matematica e ottiene buoni risultati in esami come l'American Invitational Mathematics Examination (AIME). 

Figura 3. Benchmarking delle abilità di codifica di o1.

Questi progressi posizionano OpenAI o1 come un aggiornamento significativo rispetto ai modelli precedenti come GPT-4o. Apre nuove possibilità per l'IA in settori come l'economia, lo sviluppo, la ricerca e la sanità. Ad esempio, nel campo della ricerca genetica, OpenAI o1 è in grado di esaminare rapidamente un gran numero di documenti di ricerca, individuando i risultati chiave e le connessioni tra marcatori genetici e malattie. Capisce il linguaggio scientifico complesso e può riassumere i punti importanti, aiutando i ricercatori a concentrarsi sulle informazioni più rilevanti. 

Uno sguardo più attento alla catena del pensiero

Abbiamo visto in precedenza che OpenAI o1 introduce un processo di ragionamento "a catena". Questo processo consente al modello di affrontare problemi complessi in modo simile alle strategie cognitive umane. Il modello è in grado di scomporre le sfide in fasi più piccole e gestibili e di perfezionare iterativamente il suo approccio. A differenza dei modelli precedenti che si basavano sul riconoscimento immediato dei modelli, o1 ottimizza il suo processo decisionale esplorando più percorsi di ragionamento, imparando sia dai successi che dagli errori grazie all'apprendimento per rinforzo.

OpenAI ha deciso di tenere nascoste agli utenti queste catene di pensiero grezze, offrendo invece dei riepiloghi che forniscono una visione del ragionamento del modello senza svelare tutti i passaggi. Questa decisione aiuta a prevenire l'uso improprio del processo di ragionamento del modello, consentendo al contempo agli sviluppatori di monitorare e perfezionare la sicurezza e l'allineamento dell'IA. Osservando internamente le catene nascoste, gli sviluppatori possono assicurarsi che o1 aderisca alle linee guida etiche ed eviti comportamenti dannosi.

Analisi comparativa di OpenAI o1

OpenAI o1 mostra notevoli miglioramenti rispetto a GPT-4o in diversi benchmark che mettono alla prova le capacità di ragionamento e di risoluzione dei problemi. Nell'American Invitational Mathematics Examination (AIME) 2024, un esame di matematica impegnativo per i migliori studenti delle scuole superiori, o1 ha raggiunto un tasso di precisione del 74% con un solo campione per problema, rispetto al 12% di GPT-4o. Con un consenso su 64 campioni, la sua accuratezza è salita all'83% e, utilizzando un metodo di ri-classificazione raffinato con 1.000 campioni, ha raggiunto il 93%, posizionandosi tra i primi 500 studenti a livello nazionale. 

Oltre alla matematica, o1 ha ottenuto risultati eccezionali anche nei benchmark che testano le conoscenze scientifiche, come il GPQA Diamond, che copre domande di livello dottorale in chimica, fisica e biologia. È sorprendente che o1 abbia superato gli esperti umani con dottorato di ricerca in questo test, diventando così il primo modello di intelligenza artificiale a riuscirci. Ha anche superato GPT-4o in 54 delle 57 categorie del benchmark MMLU, che verifica la comprensione di una serie di materie diverse, tra cui storia, legge e scienze.

Figura 4. Benchmarking OpenAI o1.

Mettiti in gioco con OpenAI o1

OpenAI ha presentato due nuovi modelli di AI della serie o1: o1-preview e o1-mini. Il modello o1-preview è stato progettato per pensare in modo più approfondito prima di rispondere, eccellendo in compiti di ragionamento complessi in ambito scientifico, di codifica e matematico. Offre capacità avanzate di risoluzione dei problemi per gli utenti che affrontano progetti impegnativi. Al contrario, o1-mini è un modello più piccolo, più veloce e più economico, ottimizzato specificamente per il ragionamento STEM, in particolare per la matematica e il coding. Pur avendo una conoscenza meno ampia del mondo, o1-mini è quasi in grado di eguagliare le prestazioni di o1-preview in valutazioni chiave come la competizione matematica AIME e le sfide di coding Codeforces, il tutto a un costo inferiore dell'80%.

Figura 5. Confronto tra i modelli OpenAI.

Puoi provare questi modelli attraverso diverse piattaforme OpenAI. ChatGPT Gli utenti Plus e Team possono accedere sia a o1-preview che a o1-mini tramite il model picker, sperimentando le funzionalità di ragionamento avanzate direttamente in ChatGPT. Gli sviluppatori con accesso al livello 5 di utilizzo delle API possono iniziare a prototipare con questi modelli, anche se alcune funzioni avanzate sono ancora in fase di sviluppo. OpenAI prevede inoltre di rendere presto disponibile o1-mini a tutti gli utenti di ChatGPT Free. Esplorando questi modelli, potrai sperimentare in prima persona i progressi dell'intelligenza artificiale e scegliere quello più adatto alle tue esigenze.

Considerazioni etiche sull'IA fatte da OpenAI

OpenAI si è concentrata sull'etica e sulla sicurezza durante lo sviluppo della serie di modelli o1. Prima di rilasciare i modelli o1-preview e o1-mini, ha condotto valutazioni approfondite, tra cui test esterni e controlli interni per verificare la presenza di rischi quali contenuti non consentiti, allucinazioni e pregiudizi. I modelli sono stati progettati con capacità di ragionamento avanzate per comprendere e seguire meglio le regole di sicurezza. 

OpenAI ha inoltre implementato misure di salvaguardia come liste di blocco e classificatori di sicurezza per gestire i rischi. Il modello o1 ha una valutazione di rischio complessiva media. Presenta rischi bassi in aree come la cybersicurezza e l'autonomia del modello e rischi medi in aree come i contenuti CBRN (chimici, biologici, radiologici e nucleari) e la persuasione. Il Safety Advisory Group e il Board di OpenAI hanno esaminato queste misure di sicurezza per garantire che il modello sia sicuro ed etico da usare.

Figura 6. Scorecard di OpenAI o1.

Dalle voci alla realtà: OpenAI o1 sale sul palco

OpenAI o1 rappresenta un grande passo avanti nel ragionamento dell'intelligenza artificiale, trasformando in realtà alcune delle prime indiscrezioni. A differenza di GPT-4o, la serie o1 ragiona in modo più approfondito utilizzando un approccio "Chain of Thought" (catena del pensiero), suddividendo problemi complessi in fasi più piccole per ottenere risposte migliori. Attualmente disponibile in anteprima su ChatGPT e sulle API, OpenAI prevede di aggiungere funzioni come la navigazione web e il caricamento di file e immagini. OpenAI ha inoltre dichiarato che intende continuare a sviluppare e rilasciare modelli della serie GPT, oltre alla nuova serie OpenAI o1. Con la continua evoluzione dell'IA, progressi come questi stanno aprendo la strada a sistemi di IA più potenti, intuitivi e versatili, in grado di assistere e comprendere meglio le esigenze umane.

Tieni il passo con le ultime novità sull'IA unendoti alla nostra community! Visita il nostro repository GitHub per scoprire come stiamo sperimentando soluzioni di IA in settori come quello manifatturiero e sanitario. 🚀

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico