Facendo clic su "Accetta tutti i cookie", l'utente accetta la memorizzazione dei cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzarne l'utilizzo e contribuire alle nostre iniziative di marketing. Per saperne di più
Impostazioni dei cookie
Facendo clic su "Accetta tutti i cookie", l'utente accetta la memorizzazione dei cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzarne l'utilizzo e contribuire alle nostre iniziative di marketing. Per saperne di più
Unisciti a noi per dare un'occhiata più da vicino ai recenti aggiornamenti di ChatGPT rilasciati da OpenAI. Esploreremo Canvas, la messa a punto delle capacità di visione e l'ultima funzione di ricerca.
Dopo l'ultima occhiata ai modelli o1 di OpenAI a settembre (progettati per migliorare il ragionamento), sono state aggiunte molte nuove ed entusiasmanti funzionalità a ChatGPT. Alcune di queste novità sono rivolte agli sviluppatori, mentre altre sono state pensate per migliorare l'esperienza degli utenti. Nel complesso, ogni aggiornamento contribuisce a rendere le interazioni con ChatGPT più intuitive ed efficaci.
Aggiornamenti come Canvas, progettato per la scrittura e la codifica collaborativa, e la messa a punto delle capacità di visione che migliora il modo in cui ChatGPT lavora con le immagini, hanno suscitato molto interesse, incoraggiando gli utenti a esplorare più possibilità creative. Nel frattempo, gli aggiornamenti tecnici, come le nuove API e i rapporti sui test di correttezza, affrontano aspetti come l'integrazione dei modelli e le pratiche etiche dell'IA . Immergiamoci e scopriamo meglio le ultime funzionalità di ChatGPT di OpenAI!
Una panoramica della funzione canvas di OpenAI
Canvas è il primo aggiornamento importante dell'interfaccia utente (UI) di ChatGPT dal suo rilascio. Si tratta di una nuova interfaccia con un layout a due schermate, con le richieste nella barra laterale sinistra e le risposte nella finestra laterale destra. La nuova interfaccia utente elimina il flusso di lavoro abituale di una struttura a schermo singolo simile a una chat e passa a un layout a due schermi che si adatta al multitasking per aumentare la produttività.
Figura 1. Canvas porta aggiornamenti dell'interfaccia utente a ChatGPT.
Prima dell'introduzione di Canvas, lavorare con documenti lunghi su ChatGPT significava dover scorrere su e giù per un bel po'. Nel nuovo layout, le richieste vengono visualizzate sulla barra laterale sinistra e il documento di testo o lo snippet di codice occupano la maggior parte dello schermo. Se necessario, è possibile personalizzare le dimensioni della barra laterale sinistra e della schermata di output. Inoltre, è possibile selezionare una parte del testo o una sezione di codice e modificare la sezione specifica senza alterare l'intero documento.
Figura 2. Modifica di sezioni specifiche di testo con Canvas.
Se utilizzate Canvas, noterete che non c'è un pulsante o una levetta specifica per aprirlo nell'interfaccia di ChatGPT. Invece, quando si lavora con il modello GPT-4o, Canvas si apre automaticamente se rileva che si sta modificando, scrivendo o codificando. Per le richieste più semplici, rimane inattivo. Se si desidera aprirlo manualmente, si possono usare messaggi come "Apri la Tela" o "Dammi il layout della Tela".
Attualmente, Canvas è in versione beta e disponibile solo con GPT-4o. Tuttavia, OpenAI ha dichiarato che Canvas sarà disponibile per tutti gli utenti gratuiti quando uscirà dalla fase beta.
Aggiornamenti API di ChatGPT
OpenAI ha rilasciato tre nuovi aggiornamenti dell'API ChatGPT volti a migliorare l'efficienza, la scalabilità e la versatilità. Diamo un'occhiata più da vicino a ciascuno di questi aggiornamenti.
Modello di distillazione
Utilizzando la funzione Model Distillation attraverso le API OpenAI, gli sviluppatori possono utilizzare i risultati di modelli avanzati come GPT-4o o o1-preview per migliorare le prestazioni di modelli più piccoli ed economici come GPT-4o mini. La distillazione dei modelli è un processo che prevede l'addestramento di modelli più piccoli per imitare il comportamento di quelli più avanzati, rendendoli più efficienti per compiti specifici.
Prima dell'introduzione di questa funzione, gli sviluppatori dovevano coordinare manualmente una serie di attività utilizzando strumenti diversi. Queste attività comprendevano la generazione di set di dati, la misurazione delle prestazioni del modello e la messa a punto dei modelli, rendendo spesso il processo complesso e soggetto a errori. L'aggiornamento Model Distillation consente agli sviluppatori di utilizzare Stored Completions, uno strumento che permette di generare automaticamente set di dati catturando e memorizzando le coppie input-output prodotte da modelli avanzati attraverso l'API.
Un'altra funzione di Model Distillation, Evals (attualmente in beta), aiuta a misurare il rendimento di un modello su compiti specifici, senza dover creare script di valutazione personalizzati o utilizzare strumenti separati. Utilizzando i set di dati generati con Stored Completions e valutando le prestazioni con Evals, gli sviluppatori possono mettere a punto i propri modelli GPT personalizzati.
Figura 3. È possibile utilizzare Evals per misurare le prestazioni del modello.
Caching del prompt
Spesso quando si realizzano applicazioni di intelligenza artificiale, in particolare i chatbot, lo stesso contesto (le informazioni di base o la cronologia delle conversazioni precedenti necessarie per comprendere la richiesta corrente) viene utilizzato ripetutamente per più chiamate API. Il Prompt Caching consente agli sviluppatori di riutilizzare i token di input usati di recente (segmenti di testo che il modello elabora per comprendere la richiesta e generare una risposta), contribuendo a ridurre i costi e la latenza.
Dal 1° ottobre, OpenAI ha applicato automaticamente il Prompt Caching ai suoi modelli come GPT-4o, GPT-4o mini, o1-preview e o1-mini. Ciò significa che quando gli sviluppatori utilizzano l'API per interagire con un modello con un prompt lungo (oltre 1.024 token), il sistema salva le parti già elaborate.
In questo modo, se si ripetono richieste uguali o simili, si può evitare di ricalcolare quelle parti. Il sistema memorizza automaticamente la parte più lunga del prompt che ha incontrato in precedenza, iniziando con 1.024 token e aggiungendo pezzi di 128 token man mano che il prompt diventa più lungo.
API in tempo reale
La creazione di un assistente vocale generalmente comporta la necessità di trascrivere l 'audio in testo, elaborare il testo e quindi convertirlo nuovamente in audio per riprodurre la risposta. L'API Realtime di OpenAI mira a gestire l'intero processo con un'unica richiesta API. Semplificando il processo, l'API consente conversazioni in tempo reale con l'intelligenza artificiale.
Ad esempio, un assistente vocale integrato con l'API Realtime può eseguire azioni specifiche, come effettuare un ordine o trovare informazioni, in base alle richieste dell'utente. L'API rende l'assistente vocale più reattivo e in grado di adattarsi rapidamente alle esigenze degli utenti. L'API Realtime è stata resa disponibile in versione beta pubblica il 1° ottobre, con sei voci. Il 30 ottobre sono state aggiunte altre cinque voci, per un totale di undici voci disponibili.
Figura 4. Un esempio di utilizzo dell'API Realtime per esercitarsi in conversazioni in una nuova lingua.
Messa a punto di ChatGPT per i compiti di visione
In origine, il modello linguistico di visione GPT-4o poteva essere sintonizzato e personalizzato solo utilizzando set di dati di solo testo. Ora, con il rilascio della vision fine-tuning API, gli sviluppatori possono addestrare e personalizzare GPT-4o utilizzando set di dati di immagini. Da quando è stata rilasciata, la messa a punto della visione è diventata un argomento di grande interesse per gli sviluppatori e gli ingegneri di computer vision.
Per mettere a punto le capacità di visione di GPT-4o, gli sviluppatori possono utilizzare set di dati di immagini che vanno da un minimo di 100 immagini a un massimo di 50.000 immagini. Dopo essersi assicurati che il set di dati corrisponda al formato richiesto da OpenAI, è possibile caricarlo sulla piattaforma Openai e perfezionare il modello per applicazioni specifiche.
Ad esempio, Automat, un'azienda di automazione, ha utilizzato un set di dati di schermate per addestrare GPT-4o a identificare gli elementi dell'interfaccia utente su una schermata in base a una descrizione. Questo aiuta a semplificare l'automazione dei processi robotici (RPA), rendendo più facile l'interazione dei bot con le interfacce utente. Invece di affidarsi a coordinate fisse o a complesse regole di selezione, il modello è in grado di identificare gli elementi dell'interfaccia utente sulla base di semplici descrizioni, rendendo le configurazioni di automazione più adattabili e più facili da mantenere quando le interfacce cambiano.
Figura 5. Utilizzo di una versione perfezionata del modello GPT-4o per rilevare gli elementi dell'interfaccia utente.
ChatGPT equità e rilevamento dei pregiudizi
Le preoccupazioni etiche che circondano le applicazioni di IA sono un argomento di conversazione importante, dato che l'IA diventa sempre più avanzata. Poiché le risposte di ChatGPT si basano su richieste fornite dall'utente e su dati disponibili su Internet, può essere difficile mettere a punto il suo linguaggio per essere sempre responsabile. Le segnalazioni indicano che le risposte di ChatGPT sono distorte in base al nome, al sesso e alla razza. Per risolvere questo problema, il team interno di OpenAI ha condotto un test di correttezza in prima persona.
I nomi spesso contengono sottili indicazioni sulla nostra cultura e sui fattori geografici. Nella maggior parte dei casi, ChatGPT ignorerà le sottili indicazioni contenute nei nomi. Tuttavia, in alcuni casi, i nomi che rispecchiano la razza o la cultura danno luogo a risposte diverse da parte di ChatGPT, e circa l'1% di questi riflette un linguaggio dannoso. Eliminare i pregiudizi e il linguaggio dannoso è un compito impegnativo per un modello linguistico. Tuttavia, condividendo pubblicamente questi risultati e riconoscendo i limiti del modello, OpenAI aiuta gli utenti a perfezionare le richieste per ottenere risposte più neutre e imparziali.
Figura 6. Un esempio di risposte diverse dovute al nome dell'utente.
Capire la ricerca ChatGPT
Quando ChatGPT è stato lanciato per la prima volta, nella comunità dell'IA si è discusso se potesse sostituire la tradizionale navigazione sul web. Ora molti utenti utilizzano ChatGPT al posto di Google Search.
Il nuovo aggiornamento di OpenAI, la funzione di ricerca, fa un ulteriore passo avanti. Con la funzione di ricerca, ChatGPT genera risposte aggiornate e include link a fonti rilevanti. Dal 31 ottobre, la funzione di ricerca è disponibile per tutti gli utenti di ChatGPT Plus e Team, rendendo ChatGPT più simile a un motore di ricerca alimentato dall'intelligenza artificiale.
Figura 7. Un esempio di utilizzo della nuova funzione di ricerca di ChatGPT.
La strada da percorrere
I recenti aggiornamenti di ChatGPT si concentrano sul rendere l'intelligenza artificiale più utile, flessibile ed equa. La nuova funzione Canvas aiuta gli utenti a lavorare in modo più efficiente, mentre la messa a punto della visione consente agli sviluppatori di personalizzare i modelli per gestire meglio i compiti visivi. Anche l'equità e la riduzione dei pregiudizi sono priorità fondamentali, per garantire che l'IA funzioni bene per tutti, indipendentemente dalla loro identità. Che siate sviluppatori che perfezionano i modelli o che stiate semplicemente utilizzando le ultime funzionalità, ChatGPT si sta evolvendo per soddisfare un'ampia gamma di esigenze. Grazie alle funzionalità in tempo reale, all'integrazione visiva e all'attenzione per un uso responsabile, questi aggiornamenti creano un'esperienza di IA più affidabile e attendibile per tutti.