Il GPT-4o di OpenAI mostra il potenziale dell'IA

Abirami Vina

5 minuti di lettura

14 maggio 2024

Esplora il nuovo GPT-4o di OpenAI, dotato di un'intelligenza artificiale avanzata con interazioni realistiche che cambiano il modo in cui comunichiamo con la tecnologia. Esplora le sue caratteristiche rivoluzionarie!

Lunedì 13 maggio 2024, OpenAI ha annunciato il lancio del suo nuovo modello di punta, GPT-4o, dove la "o" sta per "omni". GPT-4o è un modello avanzato di intelligenza artificiale multimodale per interazioni in tempo reale con testo, audio e visione, che offre un'elaborazione più rapida, un supporto multilingue e una maggiore sicurezza.

Sta portando in tavola capacità di IA generativa mai viste prima. Basandosi sui punti di forza conversazionali di ChatGPT, le funzionalità di GPT-4o segnano un sostanziale passo avanti nel modo in cui le persone percepiscono l'IA. Ora possiamo parlare con GPT-4o come se fosse una persona reale. Scopriamo cosa è in grado di fare GPT-4o!

Conoscere il GPT-4o

In occasione dell'aggiornamento primaverile di OpenAI, è stato rivelato che GPT-4o è intelligente quanto GPT-4, ma è in grado di elaborare i dati più velocemente ed è meglio equipaggiato per gestire testi, visioni e audio. A differenza delle versioni precedenti, che si concentravano sul rendere i modelli più intelligenti, questa release è stata realizzata tenendo conto della necessità di rendere l'IA più facile da usare per il pubblico generale. 

__wf_reserved_inherit
Figura 1. Aggiornamento di primavera di OpenAI

La modalità vocale di ChatGPT, rilasciata alla fine dello scorso anno, prevedeva l'impiego di tre diversi modelli per trascrivere gli input vocali, comprendere e generare risposte scritte e convertire il testo in voce in modo che l'utente potesse ascoltare la risposta. Questa modalità aveva problemi di latenza e non era molto naturale. GPT-4o è in grado di elaborare in modo nativo testo, immagini e audio in un'unica soluzione per dare all'utente l'impressione di partecipare a una conversazione naturale. 

Inoltre, a differenza della modalità vocale, ora è possibile interrompere il GPT-4o mentre sta parlando e reagirà proprio come farebbe una persona. Si fermerà e ascolterà, quindi darà la sua risposta in tempo reale in base a ciò che avete detto. Può anche esprimere emozioni attraverso la voce e capire il tono di voce. 

Caratteristiche entusiasmanti del GPT-4o

La valutazione del modello GPT-4o mostra quanto sia avanzato. Uno dei risultati più interessanti è che GPT-4o migliora notevolmente il riconoscimento vocale rispetto a Whisper-v3 in tutte le lingue, soprattutto quelle meno utilizzate. 

Le prestazioni dell'Audio ASR (Automatic Speech Recognition) misurano l'accuratezza con cui un modello trascrive il linguaggio parlato in testo. Le prestazioni di GPT-4o sono monitorate dal Word Error Rate (WER), che indica la percentuale di parole trascritte in modo errato (un WER più basso significa una qualità migliore). Il grafico sottostante mostra il WER più basso di GPT-4o in varie regioni, dimostrando la sua efficacia nel migliorare il riconoscimento vocale per le lingue a bassa disponibilità di risorse.

__wf_reserved_inherit
Figura 2. Il GPT-4o ha un riconoscimento vocale superiore in più lingue.

Ecco un'occhiata ad altre caratteristiche uniche del GPT-4o:

  • Più veloce - È due volte più veloce del GPT-4 Turbo. È in grado di rispondere agli input audio in soli 232 millisecondi, un tempo simile a quello delle conversazioni umane.
  • Economico - La versione API del GPT-4o è più economica del 50% rispetto al GPT-4 Turbo.
  • Memoria - Il GPT-4o ha la capacità di mantenere la consapevolezza in diverse conversazioni. È in grado di ricordare di cosa si sta parlando in diverse chat.
  • Multilingua - GPT-4o è stato addestrato per migliorare la velocità e la qualità in 50 lingue diverse.

Esempi di ciò che il GPT-4o può fare

Ora è possibile estrarre GPT-4o dal telefono, accendere la fotocamera e chiedere a GPT-4o, come si farebbe con un amico, di indovinare il proprio stato d'animo in base all'espressione del viso. GPT-4o può vedervi attraverso la fotocamera e rispondere.

__wf_reserved_inherit
Figura 3. GPT-4o che comprende lo stato d'animo di un essere umano attraverso un video.

Si può anche usare per aiutare a risolvere i problemi di matematica, mostrando a GPT-4o ciò che si sta scrivendo attraverso un video. In alternativa, potete condividere il vostro schermo e il programma può diventare un utile tutor su Khan Academy, chiedendovi di indicare le diverse parti di un triangolo in geometria, come mostrato di seguito.

__wf_reserved_inherit
Figura 4. GPT-4o che agisce come tutor su Khan Academy.

Oltre ad aiutare i bambini con la matematica, gli sviluppatori possono conversare con GPT-4o per eseguire il debug del loro codice. Questo è possibile grazie all'introduzione di ChatGPT come applicazione desktop. Se si evidenzia e si copia il codice utilizzando CTRL "C" mentre si parla con l'app vocale GPT-4o per desktop, questa sarà in grado di leggere il codice. Oppure si può usare per tradurre le conversazioni tra sviluppatori che parlano lingue diverse. 

Le possibilità di GPt-4o sembrano infinite. Una delle dimostrazioni più interessanti di OpenAI ha utilizzato due telefoni per mostrare GPt-4o che parla con diverse istanze di se stesso e canta insieme.

__wf_reserved_inherit
Figura 5. L'intelligenza artificiale parla e canta con l'intelligenza artificiale.

Applicazioni GPT-4o

Come mostrato in una demo, il GPT-4o può rendere il mondo più accessibile alle persone con problemi di vista. Può aiutarle a interagire e a muoversi in modo più sicuro e indipendente. Ad esempio, gli utenti possono accendere il video e mostrare a GPT-4o una vista della strada. GPT-4o può quindi fornire descrizioni in tempo reale dell'ambiente, come l'identificazione di ostacoli, la lettura di cartelli stradali o la guida verso un luogo specifico. Può anche aiutarli a chiamare un taxi, avvisandoli quando un taxi si sta avvicinando.

__wf_reserved_inherit
Figura 6. GPT-4o che segnala l'avvicinamento di un taxi.

Allo stesso modo, il GPT-4o può trasformare diversi settori grazie alle sue capacità avanzate. Nel settore della vendita al dettaglio, può migliorare il servizio clienti fornendo assistenza in tempo reale, rispondendo alle domande e aiutando i clienti a trovare i prodotti sia online che in negozio. Se ad esempio state guardando uno scaffale di prodotti e non riuscite a scegliere il prodotto che state cercando, GPT-4o può aiutarvi. 

Nel settore sanitario, GPT-4o può fornire assistenza diagnostica analizzando i dati dei pazienti, suggerendo possibili patologie in base ai sintomi e offrendo indicazioni sulle opzioni di trattamento. Può anche supportare i professionisti del settore medico riassumendo le cartelle cliniche dei pazienti, fornendo un accesso rapido alla letteratura medica e persino offrendo una traduzione linguistica in tempo reale per comunicare con i pazienti che parlano lingue diverse. Questi sono solo alcuni esempi. Le applicazioni di GPT-4o semplificano la vita quotidiana offrendo un'assistenza personalizzata e consapevole del contesto e abbattendo le barriere all'informazione e alla comunicazione.

GPT-4o e sicurezza del modello

Proprio come le versioni precedenti di GPT, che hanno avuto un impatto su centinaia di milioni di vite, GPT-4o interagirà probabilmente con audio e video in tempo reale a livello globale, rendendo la sicurezza un elemento cruciale in queste applicazioni. OpenAI è stata molto attenta a costruire GPT-4o concentrandosi sulla mitigazione dei rischi potenziali.

Per garantire la sicurezza e l'affidabilità, OpenAI ha implementato rigorose misure di sicurezza. Queste includono il filtraggio dei dati di addestramento, il perfezionamento del comportamento del modello dopo l'addestramento e l'incorporazione di nuovi sistemi di sicurezza per la gestione degli output vocali. Inoltre, GPT-4o è stato ampiamente testato da oltre 70 esperti esterni in campi quali la psicologia sociale, i pregiudizi e la correttezza e la disinformazione. I test esterni assicurano che qualsiasi rischio introdotto o amplificato dalle nuove funzionalità sia identificato e affrontato.

Per mantenere elevati standard di sicurezza, OpenAI sta rilasciando le funzionalità di GPT-4o gradualmente nelle prossime settimane. L'introduzione graduale consente a OpenAI di monitorare le prestazioni, risolvere eventuali problemi e raccogliere il feedback degli utenti. L'approccio attento garantisce che GPT-4o offra funzionalità avanzate mantenendo i più alti standard di sicurezza e di utilizzo etico.

Provate voi stessi il GPT-4o

GPT-4o è disponibile per l'accesso gratuito. Per provare le capacità di conversazione in tempo reale di cui sopra, potete scaricare l'applicazione ChatGPT dal Google Play Store o dall'Apple App Store direttamente sul vostro telefono. 

Dopo aver effettuato l'accesso, potrete selezionare GPT-4o dall'elenco visualizzato toccando i tre punti nell'angolo superiore destro dello schermo. Dopo aver navigato in una chat abilitata con GPT-4o, se si tocca il segno più nell'angolo inferiore sinistro dello schermo, si vedranno diverse opzioni di inserimento. Nell'angolo in basso a destra dello schermo è presente l'icona delle cuffie. Selezionando l'icona delle cuffie, vi verrà chiesto se desiderate provare una versione vivavoce di GPT-4o. Dopo aver accettato, sarà possibile provare GPT-4o, come mostrato di seguito.

__wf_reserved_inherit
Figura 7. Prova del GPT-4o sull'applicazione mobile ChatGPT.

Se desiderate integrare le funzionalità avanzate di GPT-4o nei vostri progetti, è disponibile come API per gli sviluppatori. Questa API consente di incorporare il potente riconoscimento vocale, il supporto multilingue e le capacità di conversazione in tempo reale di GPT-4o nelle proprie applicazioni. Utilizzando l'API, è possibile migliorare l'esperienza degli utenti, costruire applicazioni più intelligenti e portare la tecnologia AI all'avanguardia in diversi settori.

GPT-4o: Non ancora del tutto umano

Sebbene GPT-4o sia molto più avanzato rispetto ai precedenti modelli di IA, è importante ricordare che GPT-4o ha i suoi limiti. OpenAI ha segnalato che a volte cambia casualmente lingua mentre parla, passando dall'inglese al francese. Hanno anche visto GPT-4o tradurre in modo errato da una lingua all'altra. Man mano che più persone proveranno il modello, capiremo dove GPT-4o eccelle e in cosa ha bisogno di ulteriori miglioramenti.

La linea di fondo

Il GPT-4o di OpenAI apre nuove porte all'intelligenza artificiale grazie all'elaborazione avanzata di testo, visione e audio, offrendo interazioni naturali e simili a quelle umane. Eccelle in termini di velocità, efficienza economica e supporto multilingue. GPT-4o è uno strumento versatile per l'istruzione, l'accessibilità e l'assistenza in tempo reale. Man mano che gli utenti esploreranno le capacità di GPT-4o, il feedback ne guiderà l'evoluzione. GPT-4o dimostra che l'intelligenza artificiale sta davvero cambiando il nostro mondo e sta diventando parte della nostra vita quotidiana. 

Esplorate il nostro repository GitHub e unitevi alla nostra comunità per approfondire il tema dell'IA. Visitate le nostre pagine dedicate alle soluzioni per vedere come l'IA sta trasformando settori come la produzione e l'agricoltura.

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti