X
Ultralytics YOLOv8.2 RilascioUltralytics YOLOv8.2 RilascioUltralytics YOLOv8.2 Freccia di rilascio
Controllo verde
Link copiato negli appunti

Il GPT-4o di OpenAI mette in mostra le potenzialità dell'intelligenza artificiale

Scopri il nuovo GPT-4o di OpenAI, dotato di un'intelligenza artificiale avanzata con interazioni realistiche che cambiano il modo in cui comunichiamo con la tecnologia. Esplora le sue caratteristiche rivoluzionarie!

Lunedì 13 maggio 2024, OpenAI ha annunciato il lancio del suo nuovo modello di punta, GPT-4o, dove la "o" sta per "omni". GPT-4o è un modello avanzato di intelligenza artificiale multimodale per interazioni in tempo reale con testo, audio e vista, che offre un'elaborazione più rapida, supporto multilingue e maggiore sicurezza.

Sta portando sul tavolo capacità di IA generativa mai viste prima. Basandosi sui punti di forza conversazionali di ChatGPT, le funzionalità di GPT-4o segnano un sostanziale passo avanti nel modo in cui le persone percepiscono l'IA. Ora possiamo parlare con GPT-4o come se fosse una persona reale. Scopriamo cosa è in grado di fare GPT-4o!

Conoscere il GPT-4o

In occasione dell'aggiornamento primaverile di OpenAI, è stato rivelato che GPT-4o è intelligente quanto GPT-4, ma è in grado di elaborare i dati più velocemente ed è meglio equipaggiato per gestire testi, visioni e audio. A differenza delle versioni precedenti, che si concentravano sul rendere i modelli più intelligenti, questa versione è stata realizzata tenendo conto della necessità di rendere l'IA più facile da usare per il grande pubblico. 

Figura 1. Aggiornamento di primavera di OpenAI

ChatGPTLa modalità vocale, rilasciata alla fine dello scorso anno, prevedeva l'intervento di tre diversi modelli per trascrivere gli input vocali, comprendere e generare risposte scritte e convertire il testo in voce in modo che l'utente potesse ascoltare una risposta. Questa modalità aveva problemi di latenza e non era molto naturale. GPT-4o è in grado di elaborare in modo nativo testo, immagini e audio in un'unica soluzione per dare all'utente l'impressione di partecipare a una conversazione naturale. 

Inoltre, a differenza della modalità vocale, ora puoi interrompere il GPT-4o mentre sta parlando e reagirà proprio come farebbe una persona. Farà una pausa e ascolterà, poi darà la sua risposta in tempo reale in base a ciò che hai detto. Può anche esprimere emozioni attraverso la voce e capire il tuo tono. 

Caratteristiche entusiasmanti del GPT-4o

La valutazione del modello GPT-4o mostra quanto sia avanzato. Uno dei risultati più interessanti è che GPT-4o migliora notevolmente il riconoscimento vocale rispetto a Whisper-v3 in tutte le lingue, soprattutto quelle meno utilizzate. 

Le prestazioni dell'Audio ASR (Automatic Speech Recognition) misurano l'accuratezza con cui un modello trascrive il linguaggio parlato in testo. Le prestazioni di GPT-4o sono monitorate dal Word Error Rate (WER), che indica la percentuale di parole trascritte in modo errato (un WER più basso significa una qualità migliore). Il grafico qui sotto mostra il WER più basso di GPT-4o in varie regioni, dimostrando la sua efficacia nel migliorare il riconoscimento vocale per le lingue con minori risorse.

Figura 2. Il GPT-4o ha un riconoscimento vocale superiore in più lingue.

Ecco un'occhiata ad altre caratteristiche uniche della GPT-4o:

  • Più veloce - È due volte più veloce del GPT-4 Turbo. È in grado di rispondere agli input audio in soli 232 millisecondi, un tempo simile a quello delle conversazioni umane.
  • Economico - La versione API del GPT-4o è più economica del 50% rispetto al GPT-4 Turbo.
  • Memoria - Il GPT-4o ha la capacità di mantenere la consapevolezza in diverse conversazioni. È in grado di ricordare di cosa stai parlando in diverse chat.
  • Multilingua - GPT-4o è stato addestrato per migliorare la velocità e la qualità in 50 lingue diverse.

Esempi di ciò che il GPT-4o può fare

Ora puoi tirare fuori GPT-4o dal tuo telefono, accendere la fotocamera e chiedere a GPT-4o, come faresti con un amico, di indovinare il tuo stato d'animo in base alla tua espressione facciale. GPT-4o può vederti attraverso la fotocamera e rispondere.

Figura 3. GPT-4o che comprende lo stato d'animo di un essere umano attraverso un video.

Puoi anche usarlo per aiutarti a risolvere i problemi di matematica mostrando a GPT-4o quello che stai scrivendo attraverso un video. In alternativa, puoi condividere il tuo schermo e l'applicazione diventerà un utile tutor su Khan Academy, chiedendoti di indicare le diverse parti di un triangolo in geometria, come mostrato di seguito.

Figura 4. GPT-4o che funge da tutor su Khan Academy.

Oltre ad aiutare i bambini con la matematica, gli sviluppatori possono conversare con GPT-4o per eseguire il debug del loro codice. Questo è possibile grazie all'introduzione di ChatGPT come applicazione desktop. Se evidenzi e copi il tuo codice usando CTRL "C" mentre parli con l'app vocale GPT-4o, questa sarà in grado di leggere il tuo codice. Oppure puoi usarla per tradurre le conversazioni tra sviluppatori che parlano lingue diverse. 

Le possibilità di GPt-4o sembrano infinite. Una delle dimostrazioni più interessanti di OpenAI ha utilizzato due telefoni per mostrare GPt-4o che parla con diverse istanze di se stesso e canta insieme.

Figura 5. AI che parla e canta con l'AI.

Applicazioni GPT-4o

Come mostrato in una demo, il GPT-4o può rendere il mondo più accessibile alle persone con problemi di vista. Può aiutarle a interagire e a muoversi in modo più sicuro e indipendente. Ad esempio, gli utenti possono accendere il video e mostrare a GPT-4o una vista della strada. GPT-4o può quindi fornire descrizioni in tempo reale dell'ambiente, come identificare gli ostacoli, leggere i cartelli stradali o guidarli verso un luogo specifico. Può anche aiutarli a chiamare un taxi avvisandoli quando si sta avvicinando un taxi.

Figura 6. GPT-4o che segnala l'avvicinamento di un taxi.

Allo stesso modo, il GPT-4o può trasformare diversi settori grazie alle sue funzionalità avanzate. Nel settore della vendita al dettaglio, può migliorare il servizio clienti fornendo assistenza in tempo reale, rispondendo alle domande e aiutando i clienti a trovare i prodotti sia online che in negozio. Supponiamo che tu stia guardando uno scaffale di prodotti e non riesca a scegliere il prodotto che stai cercando: GPT-4o può aiutarti. 

Nel settore sanitario, GPT-4o può aiutare nella diagnostica analizzando i dati dei pazienti, suggerendo possibili patologie in base ai sintomi e offrendo indicazioni sulle opzioni di trattamento. Può anche supportare i professionisti del settore medico riassumendo le cartelle cliniche dei pazienti, fornendo un accesso rapido alla letteratura medica e persino offrendo una traduzione linguistica in tempo reale per comunicare con i pazienti che parlano lingue diverse. Questi sono solo alcuni esempi. Le applicazioni di GPT-4o semplificano la vita quotidiana offrendo un'assistenza personalizzata e consapevole del contesto e abbattendo le barriere all'informazione e alla comunicazione.

GPT-4o e sicurezza del modello

Proprio come le versioni precedenti di GPT, che hanno avuto un impatto su centinaia di milioni di vite, GPT-4o interagirà probabilmente con audio e video in tempo reale a livello globale, rendendo la sicurezza un elemento cruciale in queste applicazioni. OpenAI è stata molto attenta a costruire GPT-4o concentrandosi sulla mitigazione dei rischi potenziali.

Per garantire sicurezza e affidabilità, OpenAI ha implementato rigorose misure di sicurezza. Queste includono il filtraggio dei dati di addestramento, il perfezionamento del comportamento del modello dopo l'addestramento e l'incorporazione di nuovi sistemi di sicurezza per la gestione degli output vocali. Inoltre, GPT-4o è stato ampiamente testato da oltre 70 esperti esterni in campi quali la psicologia sociale, i pregiudizi e la correttezza e la disinformazione. I test esterni assicurano che tutti i rischi introdotti o amplificati dalle nuove funzionalità siano identificati e affrontati.

Per mantenere elevati standard di sicurezza, OpenAI sta rilasciando le funzionalità di GPT-4o gradualmente nelle prossime settimane. L'introduzione graduale consente a OpenAI di monitorare le prestazioni, risolvere eventuali problemi e raccogliere il feedback degli utenti. L'approccio attento garantisce che GPT-4o offra funzionalità avanzate mantenendo i più alti standard di sicurezza e di utilizzo etico.

Prova tu stesso il GPT-4o

GPT-4o è disponibile gratuitamente. Per provare le capacità di conversazione in tempo reale di cui sopra, puoi scaricare l'appChatGPT dal Google Play Store o dall'Apple App Store direttamente sul tuo telefono. 

Dopo aver effettuato il login, potrai selezionare GPT-4o dall'elenco visualizzato toccando i tre punti nell'angolo superiore destro dello schermo. Dopo aver navigato in una chat abilitata con GPT-4o, se tocchi il segno più nell'angolo inferiore sinistro dello schermo, vedrai diverse opzioni di inserimento. Nell'angolo in basso a destra dello schermo, vedrai l'icona di una cuffia. Selezionando l'icona delle cuffie, ti verrà chiesto se vuoi provare la versione vivavoce di GPT-4o. Dopo aver accettato, potrai provare il GPT-4o, come mostrato di seguito.

Figura 7. Prova del GPT-4o sull'applicazione mobile ChatGPT .

Se vuoi integrare le funzionalità avanzate di GPT-4o nei tuoi progetti, è disponibile come API per gli sviluppatori. Ti permette di incorporare il potente riconoscimento vocale, il supporto multilingue e le capacità di conversazione in tempo reale di GPT-4o nelle tue applicazioni. Utilizzando l'API, puoi migliorare l'esperienza degli utenti, costruire applicazioni più intelligenti e portare la tecnologia AI all'avanguardia in diversi settori.

GPT-4o: Non ancora del tutto umano

Sebbene GPT-4o sia molto più avanzato rispetto ai precedenti modelli di IA, è importante ricordare che GPT-4o ha i suoi limiti. OpenAI ha segnalato che a volte può cambiare lingua in modo casuale mentre parla, passando da English al francese. Hanno anche visto GPT-4o tradurre in modo errato da una lingua all'altra. Man mano che più persone proveranno il modello, capiremo dove GPT-4o eccelle e in cosa ha bisogno di ulteriori miglioramenti.

Il risultato finale

Il GPT-4o di OpenAI apre nuove porte all'intelligenza artificiale grazie all'elaborazione avanzata di testo, visione e audio, offrendo interazioni naturali e simili a quelle umane. Eccelle in termini di velocità, efficienza economica e supporto multilingue. GPT-4o è uno strumento versatile per l'istruzione, l'accessibilità e l'assistenza in tempo reale. Man mano che gli utenti esploreranno le capacità di GPT-4o, il feedback ne guiderà l'evoluzione. GPT-4o dimostra che l'intelligenza artificiale sta davvero cambiando il nostro mondo e sta entrando a far parte della nostra vita quotidiana. 

Esplora il nostro repository GitHub e unisciti alla nostra community per approfondire il tema dell'IA. Visita le nostre pagine dedicate alle soluzioni per scoprire come l'IA sta trasformando settori come quello manifatturiero e agricolo.

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico