OpenAI o1: Nuovi modelli di ragionamento dell'IA - Sguardo interno

La comunità dell'intelligenza artificiale è in fermento per le speculazioni sul prossimo passo dei modelli GPT di OpenAI, a cui molti si riferiscono come al "Progetto Fragola". Il motivo è che se chiedete a GPT-4o quante R ci sono nella parola "fragola", vi dirà che ci sono due R nella parola"fragola". Può sembrare strano, considerando la potenza di GPT-4o. Tuttavia, il modello è costruito per elaborare il sottotesto, non le parole esatte. Si dice che il prossimo modello avrà lo scopo di risolvere questo problema. Sam Altman ha ulteriormente alimentato queste voci pubblicando immagini di fragole sul suo account X (precedentemente noto come Twitter).

Con l'ultimo annuncio di OpenAI di giovedì 12 settembre, finalmente abbiamo una risposta alle speculazioni! È stata rilasciata OpenAI o1, una nuova serie di modelli AI progettati per rallentare e pensare prima di rispondere. È interessante notare che OpenAI o1 è in grado di ragionare meglio e rispondere correttamente alla domanda sulle fragole! In questo articolo, discuteremo di cosa è OpenAI o1, come funziona, dove può essere utilizzato e cosa significa per il futuro dell'AI. Iniziamo!

__wf_reserved_inherit — Fig. 1. Un esempio di richiesta a OpenAI o1 sulle fragole.

‍

Nuovi progressi nell'AI da parte di OpenAI

Nel luglio 2024, i dirigenti di OpenAI hanno condiviso che la ricerca di OpenAI si sta avvicinando a un livello umano di risoluzione dei problemi, indicato come livello 2 di AI. È chiaro che questo livello si concentra sul ragionamento, poiché OpenAI introduce la sua nuova serie di modelli, OpenAI o1, come un modello che pensa prima di rispondere. OpenAI o1 è un nuovo LLM (large language model), un modello AI che comprende e genera testo simile a quello umano imparando schemi da enormi quantità di dati linguistici. È stato progettato per gestire problemi complessi che richiedono un ragionamento approfondito.

‍

Il modello è stato addestrato utilizzando il reinforcement learning, una tecnica in cui il modello impara a prendere decisioni migliori attraverso tentativi ed errori ricevendo ricompense o penalità per le sue azioni. L'algoritmo di reinforcement learning aiuta il modello a pensare in modo più efficace seguendo una catena di pensiero. OpenAI ha anche condiviso che le prestazioni di o1 continuano a migliorare con più reinforcement learning durante l'addestramento e con più tempo dedicato a "pensare" durante la risoluzione dei problemi, dimostrando che sia un addestramento esteso che un'elaborazione ponderata aiutano a migliorare le capacità del modello.

Sebbene OpenAI o1 rappresenti un progresso significativo per il ragionamento complesso, è ancora un modello iniziale e manca di alcune funzionalità che rendono utile ChatGPT , come la navigazione sul web o il caricamento di file e immagini. Per molti compiti comuni, GPT-4o potrebbe essere ancora più capace per il momento. Tuttavia, OpenAI o1 segna un grande passo avanti nella capacità dell'intelligenza artificiale di gestire ragionamenti complessi, ed è per questo che OpenAI sta iniziando una nuova serie e la chiama OpenAI o1.

Come i nuovi modelli OpenAI migliorano il ragionamento AI

OpenAI o1 può essere utilizzato per attività come decifrare codici, risolvere sfide di programmazione, rispondere a problemi di matematica, affrontare cruciverba e persino gestire argomenti complessi in scienza, sicurezza e assistenza sanitaria. In un divertente cenno al nome in codice del progetto, OpenAI ha mostrato le capacità di ragionamento del modello decifrando un codice che rivelava il messaggio "CI SONO TRE R IN FRAGOLA".

Oltre a risolvere i codici, OpenAI o1 è anche abile nella programmazione. Si comporta bene nelle sfide di programmazione competitiva come quelle su Codeforces, una piattaforma in cui i programmatori risolvono problemi di codifica complessi in condizioni di tempo limitato. In queste sfide, il modello raggiunge alti punteggi Elo (un sistema di punteggio che misura i livelli di abilità in base alle prestazioni rispetto ad altri concorrenti) e supera i modelli precedenti. Eccelle anche in matematica e si comporta bene in esami come l'American Invitational Mathematics Examination (AIME).

‍

Questi progressi posizionano OpenAI o1 come un aggiornamento significativo rispetto ai modelli precedenti come GPT-4o. Apre nuove possibilità per l'AI in aree come business, sviluppo, ricerca e assistenza sanitaria. Ad esempio, nella ricerca genetica, OpenAI o1 può esaminare rapidamente un gran numero di articoli di ricerca, individuando risultati chiave e connessioni tra marcatori genetici e malattie. Comprende il linguaggio scientifico complesso e può riassumere i punti importanti, aiutando i ricercatori a concentrarsi sulle informazioni più rilevanti.

Uno sguardo più da vicino alla catena di pensiero

Abbiamo visto prima che OpenAI o1 introduce un processo di ragionamento "Chain of Thought". Consente al modello di affrontare problemi complessi in un modo simile alle strategie cognitive umane. Il modello può suddividere le sfide in passaggi più piccoli e gestibili e perfezionare iterativamente il suo approccio. A differenza dei modelli precedenti che si basavano sul riconoscimento di schemi immediato, o1 ottimizza il suo processo decisionale esplorando più percorsi di ragionamento, imparando sia dai successi che dagli errori attraverso il reinforcement learning.

OpenAI ha deciso di mantenere queste catene di pensiero grezze nascoste agli utenti, offrendo invece riassunti che forniscono informazioni sul ragionamento del modello senza esporre ogni passaggio. Questa decisione aiuta a prevenire l'uso improprio del processo di pensiero del modello, consentendo al contempo agli sviluppatori di monitorare e perfezionare la sicurezza e l'allineamento dell'AI. Osservando internamente le catene nascoste, gli sviluppatori possono garantire che o1 aderisca alle linee guida etiche ed eviti comportamenti dannosi.

Benchmarking OpenAI o1

OpenAI o1 mostra notevoli miglioramenti rispetto a GPT-4o in diversi benchmark che valutano le capacità di ragionamento e problem-solving. Nell'American Invitational Mathematics Examination (AIME) 2024, un difficile esame di matematica per i migliori studenti delle scuole superiori, o1 ha raggiunto un tasso di accuratezza del 74% con un solo campione per problema, rispetto al 12% di GPT-4o. Con un consenso su 64 campioni, la sua accuratezza è aumentata all'83% e, utilizzando un metodo di re-ranking raffinato con 1.000 campioni, ha raggiunto il 93%, posizionandosi tra i primi 500 studenti a livello nazionale.

Oltre alla matematica, o1 ha ottenuto risultati eccezionali anche nei benchmark che valutano la conoscenza scientifica, come il GPQA Diamond, che copre domande di livello di dottorato in chimica, fisica e biologia. Sorprendentemente, o1 ha superato gli esperti umani con dottorato di ricerca in questo test, diventando il primo modello di intelligenza artificiale a farlo. Ha anche superato GPT-4o in 54 categorie su 57 nel benchmark MMLU, che valuta la comprensione in una vasta gamma di materie, tra cui storia, legge e scienze.

‍

Sperimenta direttamente OpenAI o1

OpenAI ha introdotto due nuovi modelli di intelligenza artificiale nella serie o1: o1-preview e o1-mini. Il modello o1-preview è progettato per pensare più a fondo prima di rispondere, eccellendo in compiti di ragionamento complesso in ambito scientifico, di programmazione e matematico. Offre capacità avanzate di problem-solving per gli utenti che affrontano progetti impegnativi. Al contrario, o1-mini è un modello più piccolo, più veloce e più economico, ottimizzato specificamente per il ragionamento STEM, in particolare la matematica e la programmazione. Pur avendo una conoscenza del mondo meno ampia, o1-mini eguaglia quasi le prestazioni di o1-preview in valutazioni chiave come la competizione di matematica AIME e le sfide di programmazione di Codeforces, il tutto con un costo inferiore dell'80%.

‍

È possibile provare questi modelli attraverso varie piattaforme OpenAI. Gli utenti di ChatGPT Plus e Team possono accedere sia a o1-preview che a o1-mini tramite il model picker, sperimentando capacità di ragionamento migliorate direttamente in ChatGPT. Gli sviluppatori con accesso al livello 5 di utilizzo delle API possono iniziare a prototipare con questi modelli, anche se alcune funzionalità avanzate sono ancora in fase di sviluppo. OpenAI prevede inoltre di rendere presto disponibile o1-mini a tutti gli utenti di ChatGPT Free. Esplorando questi modelli, potrete sperimentare in prima persona i progressi dell'intelligenza artificiale e scegliere quello più adatto alle vostre esigenze.

Considerazioni etiche sull'IA fatte da OpenAI

OpenAI si è concentrata sull'etica e la sicurezza durante lo sviluppo della serie di modelli o1. Prima di rilasciare i modelli o1-preview e o1-mini, ha condotto valutazioni approfondite, inclusi test esterni e controlli interni per rischi come contenuti non consentiti, allucinazioni e bias. I modelli sono progettati con capacità di ragionamento avanzate per comprendere e seguire meglio le regole di sicurezza.

OpenAI ha anche implementato misure di sicurezza come blocklist e classificatori di sicurezza per gestire i rischi. Il modello o1 ha una valutazione del rischio complessivo media. Presenta bassi rischi in aree come la sicurezza informatica e l'autonomia del modello e rischi medi in aree come i contenuti CBRN (chimici, biologici, radiologici e nucleari) e la persuasione. Il Safety Advisory Group e il Board di OpenAI hanno esaminato queste misure di sicurezza per garantire che il modello sia sicuro ed etico da usare.

‍

Dai rumors alla realtà: OpenAI o1 sale sul palco

OpenAI o1 rappresenta un grande passo avanti nel ragionamento dell'intelligenza artificiale, trasformando in realtà alcune delle prime indiscrezioni. A differenza di GPT-4o, la serie o1 ragiona in modo più approfondito utilizzando un approccio di tipo "Chain of Thought", scomponendo problemi complessi in fasi più piccole per ottenere risposte migliori. Attualmente disponibile come anteprima in ChatGPT e nell'API, OpenAI prevede di aggiungere funzioni come la navigazione web e il caricamento di file e immagini. OpenAI ha inoltre dichiarato che intende continuare a sviluppare e rilasciare modelli della serie GPT, insieme alla nuova serie OpenAI o1. Con la continua evoluzione dell'IA, progressi come questi aprono la strada a sistemi di IA più potenti, intuitivi e versatili, in grado di assistere e comprendere meglio le esigenze umane.

Rimani aggiornato sulle ultime novità sull'IA unendoti alla nostra community! Visita il nostro repository GitHub per vedere come stiamo aprendo la strada a soluzioni di IA in settori come la produzione e l'assistenza sanitaria. 🚀

OpenAI o1: una nuova serie di modelli OpenAI per il ragionamento AI

Nuovi progressi nell'AI da parte di OpenAI

Come i nuovi modelli OpenAI migliorano il ragionamento AI

Uno sguardo più da vicino alla catena di pensiero

Benchmarking OpenAI o1

Sperimenta direttamente OpenAI o1

Considerazioni etiche sull'IA fatte da OpenAI

Dai rumors alla realtà: OpenAI o1 sale sul palco

Leggi di più in questa categoria

12 casi d'uso delle immagini aeree basati sulla visione artificiale

Strumenti di visione artificiale per la diagnostica sanitaria

Dai dati alle decisioni: l'uso dell'intelligenza artificiale visiva per la strategia aziendale

Costruiamo insieme il futuro
dell'AI!

OpenAI o1: una nuova serie di modelli OpenAI per il ragionamento AI

Nuovi progressi nell'AI da parte di OpenAI

Come i nuovi modelli OpenAI migliorano il ragionamento AI

Uno sguardo più da vicino alla catena di pensiero

Benchmarking OpenAI o1

Sperimenta direttamente OpenAI o1

Considerazioni etiche sull'IA fatte da OpenAI

Dai rumors alla realtà: OpenAI o1 sale sul palco

Leggi di più in questa categoria

12 casi d'uso delle immagini aeree basati sulla visione artificiale

Strumenti di visione artificiale per la diagnostica sanitaria

Dai dati alle decisioni: l'uso dell'intelligenza artificiale visiva per la strategia aziendale

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!