X
Ultralytics YOLOv8.2 LoslatenUltralytics YOLOv8.2 LoslatenUltralytics YOLOv8.2 Pijl loslaten
Groene cheque
Link gekopieerd naar klembord

OpenAI's GPT-4o laat het potentieel van AI zien

Ontdek OpenAI's nieuwe GPT-4o, met geavanceerde AI met levensechte interacties die veranderen hoe we communiceren met technologie. Ontdek de baanbrekende functies!

Op maandag 13 mei 2024 kondigde OpenAI de lancering aan van zijn nieuwe vlaggenschipmodel, GPT-4o, waarbij de 'o' staat voor 'omni'. GPT-4o is een geavanceerd multimodaal AI-model voor realtime interacties met tekst, audio en beeld, met snellere verwerking, meertalige ondersteuning en verbeterde veiligheid.

Het brengt nooit eerder vertoonde generatieve AI-mogelijkheden op tafel. Voortbouwend op de sterke punten van ChatGPT op het gebied van conversatie, betekenen de functies van GPT-4o een grote stap voorwaarts in hoe mensen AI zien. We kunnen nu met GPT-4o praten alsof het een echt persoon is. Laten we eens kijken waar GPT-4o precies toe in staat is!

Kennismaken met GPT-4o

Tijdens OpenAI's voorjaarsupdate werd onthuld dat GPT-4o net zo intelligent is als GPT-4, maar gegevens sneller kan verwerken en beter overweg kan met tekst, beeld en audio. In tegenstelling tot eerdere releases die zich richtten op het slimmer maken van de modellen, is deze release gemaakt met in het achterhoofd de noodzaak om AI makkelijker te gebruiken te maken voor het algemene publiek. 

Fig 1. OpenAI's voorjaarsupdate

ChatGPTDe spraakmodus, die eind vorig jaar werd uitgebracht, bestond uit drie verschillende modellen die samenkwamen om vocale input te transcriberen, geschreven antwoorden te begrijpen en te genereren, en tekst naar spraak om te zetten zodat de gebruiker een antwoord kon horen. Deze modus had te maken met latentieproblemen en voelde niet erg natuurlijk aan. GPT-4o kan tekst, beeld en geluid in één keer verwerken om de gebruiker de indruk te geven dat hij deelneemt aan een natuurlijk gesprek. 

In tegenstelling tot de spraakmodus kun je de GPT-4o nu onderbreken terwijl hij praat, en dan reageert hij net zoals een mens dat zou doen. Hij pauzeert en luistert, en geeft dan een realtime reactie op basis van wat je hebt gezegd. Hij kan ook emoties uiten via zijn stem en je toon begrijpen. 

Spannende GPT-4o functies

GPT-4o's modelevaluatie laat zien hoe geavanceerd het is. Een van de meest interessante resultaten was dat GPT-4o de spraakherkenning sterk verbetert ten opzichte van Whisper-v3 in alle talen, vooral in de talen die minder vaak worden gebruikt. 

De prestaties van Audio ASR (Automatic Speech Recognition) meten hoe nauwkeurig een model gesproken taal naar tekst transcribeert. De prestaties van GPT-4o worden gemeten met de Word Error Rate (WER), die het percentage onjuist getranscribeerde woorden aangeeft (een lagere WER betekent een betere kwaliteit). De grafiek hieronder laat GPT-4o's lagere WER zien in verschillende regio's, wat de effectiviteit aantoont bij het verbeteren van spraakherkenning voor talen met minder hulpbronnen.

Fig 2. GPT-4o heeft superieure spraakherkenning in meerdere talen.

Hier vind je nog meer unieke functies van GPT-4o:

  • Sneller - Hij is twee keer zo snel als GPT-4 Turbo. Hij kan in slechts 232 milliseconden reageren op audio-inputs, vergelijkbaar met de reactietijden van menselijke gesprekken.
  • Kosteneffectief - De API-versie van GPT-4o is 50% goedkoper dan GPT-4 Turbo.
  • Geheugen - GPT-4o heeft het vermogen om zich bewust te blijven van verschillende gesprekken. Het kan onthouden waar je het over hebt in verschillende chats.
  • Meertalig - GPT-4o is getraind om de snelheid en kwaliteit in 50 verschillende talen te verbeteren.

Voorbeelden van wat GPT-4o kan doen

Je kunt nu GPT-4o tevoorschijn halen op je telefoon, je camera aanzetten en GPT-4o, net als een vriend, vragen om je stemming te raden op basis van je gezichtsuitdrukking. GPT-4o kan je via de camera bekijken en antwoorden.

Fig. 3. GPT-4o begrijpt de stemming van een mens via video.

Je kunt het zelfs gebruiken om je te helpen bij het oplossen van wiskundeproblemen door GPT-4o te laten zien wat je schrijft via video. Je kunt ook je scherm delen en dan kan het een handige tutor worden op Khan Academy, die je vraagt om verschillende delen van een driehoek in geometrie aan te wijzen, zoals hieronder te zien is.

Fig 4. GPT-4o als tutor op Khan Academy.

Ontwikkelaars kunnen niet alleen kinderen helpen met rekenen, maar kunnen ook gesprekken voeren met GPT-4o om hun code te debuggen. Dit is mogelijk dankzij de introductie van ChatGPT als desktop app. Als je je code markeert en kopieert met CTRL "C" terwijl je praat met de GPT-4o spraakapplicatie op je bureaublad, kan hij je code lezen. Of je kunt het gebruiken om gesprekken te vertalen tussen ontwikkelaars die verschillende talen spreken. 

De mogelijkheden met GPt-4o lijken eindeloos. Een van de interessantste demo's van OpenAI gebruikte twee telefoons om te laten zien hoe GPt-4o met verschillende instanties van zichzelf praat en samen zingt.

Fig 5. Praten en zingen met AI.

GPT-4o toepassingen

Zoals te zien was in een demo, kan GPT-4o de wereld toegankelijker maken voor mensen met een visuele beperking. Het kan hen helpen veiliger en onafhankelijker te communiceren en te bewegen. Gebruikers kunnen bijvoorbeeld hun video aanzetten en GPT-4o een straatbeeld laten zien. GPT-4o kan dan realtime beschrijvingen van de omgeving geven, zoals het identificeren van obstakels, het lezen van straatnaamborden of hen naar een specifieke locatie leiden. Het kan hen zelfs helpen een taxi te roepen door hen te waarschuwen wanneer er een taxi nadert.

Fig 6. GPT-4o waarschuwt bij nadering van een cabine.

Ook GPT-4o kan met zijn geavanceerde mogelijkheden verschillende bedrijfstakken transformeren. In de detailhandel kan het de klantenservice verbeteren door realtime hulp te bieden, vragen te beantwoorden en klanten te helpen producten te vinden, zowel online als in de winkel. Stel, je bekijkt een schap met producten en je kunt het product dat je zoekt er niet uitpikken, dan kan GPT-4o je helpen. 

In de gezondheidszorg kan GPT-4o helpen bij diagnostiek door patiëntgegevens te analyseren, mogelijke aandoeningen voor te stellen op basis van symptomen en advies te geven over behandelingsopties. Het kan medische professionals ook ondersteunen door patiëntendossiers samen te vatten, snel toegang te geven tot medische literatuur en zelfs realtime taalvertalingen te bieden om te communiceren met patiënten die andere talen spreken. Dit zijn slechts een paar voorbeelden. De toepassingen van GPT-4o maken het dagelijks leven gemakkelijker door op maat gemaakte, contextbewuste hulp te bieden en barrières voor informatie en communicatie te slechten.

GPT-4o en modelveiligheid

Net als de vorige versies van GPT, die honderden miljoenen levens hebben beïnvloed, zal GPT-4o waarschijnlijk wereldwijd communiceren met realtime audio en video, waardoor veiligheid een cruciaal element is in deze toepassingen. OpenAI heeft GPT-4o heel zorgvuldig gebouwd met de focus op het beperken van mogelijke risico's.

Om de veiligheid en betrouwbaarheid te garanderen heeft OpenAI rigoureuze veiligheidsmaatregelen geïmplementeerd. Deze omvatten het filteren van trainingsgegevens, het verfijnen van het gedrag van het model na de training en het inbouwen van nieuwe veiligheidssystemen voor het beheren van stemuitvoer. Bovendien is GPT-4o uitgebreid getest door meer dan 70 externe experts op het gebied van sociale psychologie, vooroordelen en eerlijkheid, en verkeerde informatie. Externe tests zorgen ervoor dat alle risico's die worden geïntroduceerd of versterkt door de nieuwe functies worden geïdentificeerd en aangepakt.

Om de hoge veiligheidsnormen te handhaven, geeft OpenAI de functies van GPT-4o de komende weken geleidelijk vrij. Een gefaseerde uitrol stelt OpenAI in staat om de prestaties te controleren, eventuele problemen aan te pakken en feedback van gebruikers te verzamelen. Een voorzichtige aanpak zorgt ervoor dat GPT-4o geavanceerde mogelijkheden biedt terwijl de hoogste normen voor veiligheid en ethisch gebruik gehandhaafd blijven.

Probeer GPT-4o zelf uit

GPT-4o is gratis beschikbaar. Om de bovengenoemde realtime gespreksmogelijkheden uit te proberen, kun je de appChatGPT rechtstreeks op je telefoon downloaden uit de Google Play Store of Apple App Store. 

Na het inloggen kun je GPT-4o selecteren uit de lijst die wordt weergegeven door op de drie puntjes in de rechterbovenhoek van het scherm te tikken. Nadat je naar een chat met GPT-4o bent gegaan, zie je meerdere invoermogelijkheden als je op het plusteken linksonder in het scherm tikt. In de rechterbenedenhoek van het scherm zie je een koptelefoonpictogram. Als je het koptelefoon-icoontje selecteert, wordt je gevraagd of je een handsfree versie van GPT-4o wilt gebruiken. Als je hiermee akkoord gaat, kun je GPT-4o uitproberen, zoals hieronder te zien is.

Afb 7. GPT-4o uitproberen op de mobiele app ChatGPT .

Als je de geavanceerde mogelijkheden van GPT-4o wilt integreren in je eigen projecten, is het beschikbaar als API voor ontwikkelaars. Hiermee kun je GPT-4o's krachtige spraakherkenning, meertalige ondersteuning en realtime conversatiemogelijkheden in je applicaties opnemen. Door de API te gebruiken kun je gebruikerservaringen verbeteren, slimmere apps bouwen en geavanceerde AI-technologie naar verschillende sectoren brengen.

GPT-4o: Nog niet helemaal menselijk

Hoewel GPT-4o veel geavanceerder is dan eerdere AI-modellen, is het belangrijk om te onthouden dat GPT-4o zijn eigen beperkingen heeft. OpenAI heeft gezegd dat het soms willekeurig van taal kan wisselen tijdens het praten, van English naar Frans. Ze hebben ook gezien dat GPT-4o verkeerd vertaalt tussen talen. Naarmate meer mensen het model uitproberen, zullen we begrijpen waar GPT-4o in uitblinkt en wat nog verbeterd moet worden.

De onderste regel

OpenAI's GPT-4o opent nieuwe deuren voor AI met zijn geavanceerde tekst-, beeld- en geluidsverwerking en biedt natuurlijke, mensachtige interacties. Het blinkt uit in snelheid, kostenefficiëntie en meertalige ondersteuning. GPT-4o is een veelzijdig hulpmiddel voor onderwijs, toegankelijkheid en realtime assistentie. Naarmate gebruikers de mogelijkheden van GPT-4o ontdekken, zal feedback de evolutie stimuleren. GPT-4o bewijst dat AI onze wereld echt verandert en deel gaat uitmaken van ons dagelijks leven. 

Verken onze GitHub repository en sluit je aan bij onze community om dieper in AI te duiken. Bezoek onze oplossingenpagina's om te zien hoe AI industrieën zoals productie en landbouw transformeert.

Facebook-logoTwitter-logoLinkedIn logoSymbool voor kopiëren-linken

Lees meer in deze categorie

Laten we samen bouwen aan de toekomst
van AI!

Begin je reis met de toekomst van machine learning