Grüner Scheck
Link in die Zwischenablage kopiert

Die neuesten OpenAI Updates: Canvas, Vision Fine-Tuning und mehr

Wir werfen einen genaueren Blick auf die jüngsten ChatGPT Updates von OpenAI. Wir werden uns Canvas, die Feinabstimmung der Vision-Funktionen und die neueste Suchfunktion ansehen.

Nachdem wir im September das letzte Mal einen Blick auf die o1-Modelle von OpenAI geworfen haben (die das logische Denken verbessern sollten), wurden viele neue und aufregende Funktionen zu ChatGPT hinzugefügt. Einige dieser Neuerungen richten sich an Entwickler, andere sind dazu gedacht, die Benutzererfahrung zu verbessern. Insgesamt trägt jedes Upgrade dazu bei, die Interaktion mit ChatGPT intuitiver und effektiver zu gestalten.

Updates wie Canvas, das für gemeinsames Schreiben und Codieren entwickelt wurde, und die Feinabstimmung der Vision-Funktionen, die die Arbeit von ChatGPT mit Bildern verbessert, haben viel Interesse geweckt und die Nutzer/innen dazu ermutigt, mehr kreative Möglichkeiten zu erkunden. Technische Verbesserungen wie neue APIs und Fairness-Testberichte befassen sich mit Aspekten wie Modellintegration und ethischen KI-Praktiken . Lass uns eintauchen und die neuesten ChatGPT Funktionen von OpenAI besser verstehen!

Ein Überblick über OpenAIs Canvas-Funktion

Canvas ist die erste größere Aktualisierung der Benutzeroberfläche (UI) von ChatGPTseit ihrer Veröffentlichung. Es handelt sich um eine neue Oberfläche mit einem Zwei-Bildschirm-Layout, Eingabeaufforderungen in der linken Seitenleiste und Antworten im rechten Seitenfenster. Mit der neuen Benutzeroberfläche wird der übliche Arbeitsablauf einer chatähnlichen Ein-Bildschirm-Struktur abgeschafft und ein Zwei-Bildschirm-Layout eingeführt, das sich für Multitasking eignet und die Produktivität steigert.

Abb. 1. Canvas bringt UI-Updates auf ChatGPT.

Bevor Canvas eingeführt wurde, bedeutete die Arbeit mit langen Dokumenten auf ChatGPT , dass man ziemlich weit nach oben und unten scrollen musste. Im neuen Layout werden die Eingabeaufforderungen in der linken Seitenleiste angezeigt und das Textdokument oder der Codeschnipsel nimmt den größten Teil des Bildschirms ein. Bei Bedarf kannst du sogar die Größe der linken Seitenleiste und des Ausgabebildschirms anpassen. Außerdem kannst du einen Teil des Textes oder einen Abschnitt des Codes auswählen und den entsprechenden Abschnitt bearbeiten, ohne das gesamte Dokument zu verändern.

Abb. 2. Bestimmte Textabschnitte mit Canvas bearbeiten.

Wenn du Canvas verwendest, wirst du feststellen, dass es auf der Benutzeroberfläche ChatGPT keine spezielle Schaltfläche oder einen Schalter gibt, um es zu öffnen. Wenn du mit dem GPT-4o-Modell arbeitest, wird Canvas automatisch geöffnet, wenn es erkennt, dass du etwas bearbeitest, schreibst oder codierst. Bei einfacheren Aufforderungen bleibt es inaktiv. Wenn du es manuell öffnen möchtest, kannst du Aufforderungen wie "Öffne das Canvas" oder "Hol mir das Canvas-Layout" verwenden.

Derzeit ist Canvas in der Beta-Phase und nur mit GPT-4o verfügbar. OpenAI hat jedoch erwähnt, dass Canvas für alle kostenlosen Nutzer verfügbar sein wird, sobald die Beta-Phase beendet ist.

ChatGPT's API Updates

OpenAI hat drei neue ChatGPT API-Updates veröffentlicht, die die Effizienz, Skalierbarkeit und Vielseitigkeit verbessern sollen. Schauen wir uns jedes dieser Updates genauer an.

Modell Destillation

Mit der Funktion Modell-Destillation über die OpenAI-APIs können Entwickler die Ergebnisse fortgeschrittener Modelle wie GPT-4o oder o1-preview nutzen, um die Leistung kleinerer, kosteneffizienter Modelle wie GPT-4o mini zu verbessern. Bei der Modell-Destillation werden kleinere Modelle so trainiert , dass sie das Verhalten der fortgeschrittenen Modelle nachahmen und so für bestimmte Aufgaben effizienter werden.

Bevor diese Funktion eingeführt wurde, mussten die Entwicklerinnen und Entwickler eine Vielzahl von Aufgaben mit verschiedenen Tools manuell koordinieren. Zu diesen Aufgaben gehörten die Erstellung von Datensätzen, die Messung der Modellleistung und die Feinabstimmung der Modelle, was den Prozess oft komplex und fehleranfällig machte. Mit dem Model Distillation Update können Entwickler/innen Stored Completions verwenden, ein Tool, mit dem sie automatisch Datensätze erzeugen können, indem sie die von fortgeschrittenen Modellen erzeugten Input-Output-Paare über die API erfassen und speichern.

Eine weitere Funktion von Model Distillation, Evals (derzeit in der Beta-Phase), hilft zu messen, wie gut ein Modell bei bestimmten Aufgaben abschneidet, ohne dass dafür eigene Auswertungsskripte erstellt oder separate Tools verwendet werden müssen. Mithilfe von Datensätzen , die mit Stored Completions erstellt wurden, und der Auswertung der Leistung mit Evals können Entwickler ihre eigenen GPT-Modelle feinabstimmen.

Abb. 3. Du kannst Evals verwenden, um die Leistung des Modells zu messen.

Prompt Caching

Bei der Entwicklung von KI-Anwendungen, insbesondere von Chatbots, wird oft derselbe Kontext (die Hintergrundinformationen oder der bisherige Gesprächsverlauf, die zum Verständnis der aktuellen Anfrage benötigt werden) wiederholt für mehrere API-Aufrufe verwendet. Prompt Caching ermöglicht es Entwicklern, kürzlich verwendete Eingabe-Token (Textabschnitte, die das Modell verarbeitet, um die Eingabeaufforderung zu verstehen und eine Antwort zu generieren) wiederzuverwenden und so Kosten und Latenzzeiten zu reduzieren.

Seit dem 1. Oktober wendet OpenAI automatisch Prompt Caching auf seine Modelle wie GPT-4o, GPT-4o mini, o1-preview und o1-mini an. Das bedeutet, dass das System, wenn Entwickler/innen die API verwenden, um mit einem Modell mit einer langen Eingabeaufforderung (über 1.024 Token) zu interagieren, die bereits verarbeiteten Teile speichert. 

Wenn dieselben oder ähnliche Prompts erneut verwendet werden, kann das System die Neuberechnung dieser Teile überspringen. Das System speichert automatisch den längsten Teil des Prompts, auf den es zuvor gestoßen ist. Es beginnt mit 1.024 Token und fügt mit zunehmender Länge des Prompts Stücke von 128 Token hinzu.

Realtime API

Um einen Sprachassistenten zu erstellen, müssen in der Regel Audiodaten in Text umgewandelt, der Text verarbeitet und dann wieder in Audiodaten umgewandelt werden , um die Antwort abzuspielen. Die Realtime API von OpenAI soll diesen gesamten Prozess mit einer einzigen API-Anfrage abwickeln. Durch die Vereinfachung des Prozesses ermöglicht die API Unterhaltungen mit KI in Echtzeit. 

Ein Sprachassistent, der mit der Realtime API integriert ist, kann zum Beispiel auf der Grundlage von Nutzeranfragen bestimmte Aktionen ausführen, wie eine Bestellung aufgeben oder Informationen suchen. Die API macht den Sprachassistenten reaktionsschneller und kann sich schnell an die Bedürfnisse der Nutzer/innen anpassen. Die Realtime API ist seit dem 1. Oktober in der öffentlichen Beta-Phase mit sechs Stimmen verfügbar. Am 30. Oktober kamen fünf weitere Stimmen hinzu, so dass nun insgesamt elf Stimmen verfügbar sind.

Abb. 4. Ein Beispiel für die Verwendung der Realtime API zum Üben von Gesprächen in einer neuen Sprache.

Feinabstimmung ChatGPT für Vision Tasks

Ursprünglich konnte das GPT-4o-Vision-Sprachmodell nur mit reinen Textdatensätzen feinabgestimmt und angepasst werden. Mit der Veröffentlichung der API für die Feinabstimmung können Entwickler GPT-4o jetzt auch mit Bilddaten trainieren und anpassen. Seit der Veröffentlichung ist die Feinabstimmung des Bildverarbeitungsmodells zu einem wichtigen Thema unter Entwicklern und Computer Vision Engineers geworden.

Zur Feinabstimmung der GPT-4o-Sehfähigkeiten können Entwickler Bilddatensätze verwenden, die von wenigen 100 bis zu 50.000 Bildern reichen. Nachdem sichergestellt wurde, dass der Datensatz dem von OpenAI geforderten Format entspricht, kann er auf die Openai-Plattform hochgeladen und das Modell für bestimmte Anwendungen feinabgestimmt werden. 

Das Automatisierungsunternehmen Automat nutzte zum Beispiel einen Datensatz mit Screenshots, um GPT-4o darauf zu trainieren , UI-Elemente auf einem Bildschirm anhand einer Beschreibung zu identifizieren. Dies trägt zur Optimierung der Robotic Process Automation (RPA) bei, indem es Bots die Interaktion mit Benutzeroberflächen erleichtert. Anstatt sich auf feste Koordinaten oder komplexe Selektionsregeln zu verlassen, kann das Modell UI-Elemente anhand einfacher Beschreibungen identifizieren, was die Automatisierungseinstellungen anpassungsfähiger und einfacher zu pflegen macht, wenn sich Schnittstellen ändern.

Abb. 5. Verwendung einer fein abgestimmten Version des GPT-4o-Modells zur Erkennung von UI-Elementen.

ChatGPT Fairness und Aufdeckung von Vorurteilen

Ethische Bedenken im Zusammenhang mit KI-Anwendungen sind ein wichtiges Gesprächsthema, da die KI immer fortschrittlicher wird. Da die Antworten von ChatGPTauf vom Benutzer eingegebenen Aufforderungen und im Internet verfügbaren Daten beruhen, kann es schwierig sein, die Sprache so anzupassen, dass sie stets verantwortungsvoll ist. Berichten zufolge sind die Antworten vonChatGPT in Bezug auf Name, Geschlecht und Ethnie verzerrt. Um dieses Problem zu lösen, hat das interne Team von OpenAI einen Fairness-Test in der ersten Person durchgeführt.

Namen enthalten oft subtile Hinweise auf unsere Kultur und geografische Faktoren. In den meisten Fällen ignoriert ChatGPT die subtilen Hinweise in den Namen. In einigen Fällen führen Namen, die die Ethnie oder die Kultur widerspiegeln, jedoch zu unterschiedlichen Reaktionen von ChatGPT. In etwa 1 % dieser Fälle handelt es sich um schädliche Sprache. Die Beseitigung von Vorurteilen und schädlicher Sprache ist eine anspruchsvolle Aufgabe für ein Sprachmodell. Indem OpenAI diese Ergebnisse öffentlich macht und die Grenzen des Modells anerkennt, hilft es den Nutzern, ihre Eingabeaufforderungen zu verfeinern, um neutralere, unvoreingenommene Antworten zu erhalten. 

Abb. 6. Ein Beispiel für unterschiedliche Antworten aufgrund des Namens des Nutzers.

ChatGPT Suche verstehen

Als ChatGPT auf den Markt kam, gab es in der KI-Gemeinde Diskussionen darüber, ob es das herkömmliche Surfen im Internet ersetzen könnte. Inzwischen nutzen viele Nutzer/innen ChatGPT anstelle von Google Search

Das neue Update von OpenAI, die Suchfunktion, geht noch einen Schritt weiter. Mit der Suche generiert ChatGPT aktuelle Antworten und enthält Links zu relevanten Quellen. Seit dem 31. Oktober steht die Suchfunktion allen Nutzern von ChatGPT Plus und Team zur Verfügung. ChatGPT funktioniert damit mehr wie eine KI-gestützte Suchmaschine.

Abb. 7. Ein Beispiel für die Verwendung der neuen Suchfunktion von ChatGPT.

Der Weg in die Zukunft

ChatGPTDie jüngsten Updates konzentrieren sich darauf, KI nützlicher, flexibler und fairer zu machen. Die neue Canvas-Funktion hilft den Nutzern, effizienter zu arbeiten, während die Feinabstimmung des Sehvermögens es den Entwicklern ermöglicht, die Modelle so anzupassen, dass sie visuelle Aufgaben besser bewältigen können. Fairness und der Abbau von Vorurteilen sind ebenfalls wichtige Prioritäten, um sicherzustellen, dass KI für alle gut funktioniert, unabhängig davon, wer sie sind. Egal, ob du ein Entwickler bist, der seine Modelle verfeinert, oder ob du einfach nur die neuesten Funktionen nutzen willst, ChatGPT entwickelt sich weiter, um eine Vielzahl von Bedürfnissen zu erfüllen. Mit Echtzeit-Funktionen, visueller Integration und einem Fokus auf verantwortungsvollem Umgang sorgen diese Updates für ein vertrauenswürdiges und zuverlässiges KI-Erlebnis für alle.

Erfahre mehr über KI, indem du unser GitHub-Repository besuchst und unserer Community beitrittst. Erfahre mehr über KI-Anwendungen im selbstfahrenden Auto und im Gesundheitswesen.

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens