Grüner Scheck
Link in die Zwischenablage kopiert

OpenAI o1: Eine neue Serie von OpenAI-Modellen für AI Reasoning

Erfahre mehr über die neu eingeführten OpenAI o1-Modelle und was sie so besonders macht. Wir werfen auch einen Blick darauf, wie sie funktionieren und welche Auswirkungen sie auf die Zukunft der KI haben.

In der KI-Gemeinde wird über den nächsten Schritt für die GPT-Modelle von OpenAI spekuliert, und viele nennen ihn "Projekt Erdbeere". Der Grund dafür ist, dass GPT-4o auf die Frage, wie viele Rs in dem Wort "Erdbeere" enthalten sind, antwortet, dass es zwei Rs in dem Wort"Erdbeere" gibt. Das mag seltsam erscheinen, wenn man bedenkt, wie leistungsfähig GPT-4o ist. Aber das Modell ist so gebaut, dass es den Subtext verarbeitet, nicht die genauen Wörter. Es wurde gemunkelt, dass das nächste Modell dieses Problem lösen soll. Sam Altman heizte diese Gerüchte weiter an, indem er Bilder von Erdbeeren auf seinem X-Account (früher bekannt als Twitter) postete.

Mit der jüngsten Ankündigung von OpenAI am Donnerstag, den 12. September, haben wir endlich eine Antwort auf die Spekulationen! OpenAI o1, eine neue Serie von KI-Modellen, die langsamer werden und nachdenken, bevor sie antworten, wurde veröffentlicht. Interessanterweise kann OpenAI o1 besser denken und die Frage nach den Erdbeeren richtig beantworten! In diesem Artikel erklären wir, was OpenAI o1 ist, wie es funktioniert, wo es eingesetzt werden kann und was es für die Zukunft der KI bedeutet. Lasst uns loslegen!

Abb. 1. Ein Beispiel für die Abfrage von OpenAI o1 über Erdbeeren.

Neue Fortschritte in der KI von OpenAI

Im Juli 2024 teilten die Verantwortlichen von OpenAI mit, dass sich die Forschung von OpenAI der menschlichen Ebene der Problemlösung nähert, die als Stufe 2 der KI bezeichnet wird. Es ist klar, dass sich diese Stufe auf das Denken konzentriert, denn OpenAI stellt seine neue Modellreihe OpenAI o1 vor, die denkt, bevor sie antwortet. OpenAI o1 ist ein neues LLM (Large Language Model), ein KI-Modell, das menschenähnliche Texte versteht und generiert, indem es Muster aus großen Mengen von Sprachdaten lernt. Es wurde entwickelt, um komplexe Probleme zu lösen, die tiefgreifende Überlegungen erfordern. 

Abb. 2. OpenAIs Sichtweise auf die Stufen der KI.

Das Modell wurde mit Hilfe von Reinforcement Learning trainiert, einer Technik, bei der das Modell durch Versuch und Irrtum lernt, bessere Entscheidungen zu treffen, indem es Belohnungen oder Bestrafungen für seine Aktionen erhält. Der Algorithmus des verstärkenden Lernens hilft dem Modell, effektiver zu denken, indem es einer Gedankenkette folgt. OpenAI teilte auch mit, dass die Leistung von o1 immer besser wird, je mehr Verstärkungslernen während des Trainings und je mehr Zeit mit dem "Denken" während der Problemlösung verbracht wird, was zeigt, dass sowohl ein längeres Training als auch eine durchdachte Verarbeitung dazu beitragen, die Fähigkeiten des Modells zu verbessern.

OpenAI o1 ist zwar ein bedeutender Fortschritt für komplexes Denken, aber es ist immer noch ein frühes Modell und ihm fehlen einige Funktionen, die ChatGPT nützlich machen, wie z.B. das Browsen im Internet oder das Hochladen von Dateien und Bildern. Für viele alltägliche Aufgaben könnte GPT-4o im Moment noch leistungsfähiger sein. OpenAI o1 ist jedoch ein großer Schritt vorwärts in der Fähigkeit der KI, komplexe Schlussfolgerungen zu ziehen.

Wie die neuen OpenAI-Modelle das KI-Reasoning verbessern

OpenAI o1 kann für Aufgaben wie das Entschlüsseln von Chiffren, das Lösen von Programmieraufgaben, das Beantworten von mathematischen Problemen, das Lösen von Kreuzworträtseln und sogar für komplexe Themen in Wissenschaft, Sicherheit und Gesundheitswesen eingesetzt werden. In einer amüsanten Anspielung auf den Codenamen des Projekts zeigte OpenAI die Denkfähigkeiten des Modells, indem es eine Chiffre knackte, die die Nachricht "THERE ARE THREE R'S IN STRAWBERRY" enthüllte. 

OpenAI o1 kann nicht nur Chiffren lösen, sondern auch programmieren. Es schneidet bei Programmierwettbewerben wie Codeforces gut ab, einer Plattform, auf der Programmierer/innen unter Zeitdruck komplexe Programmieraufgaben lösen. Bei diesen Wettbewerben erreicht das Modell hohe Elo-Werte (ein Punktesystem, das die Fähigkeiten im Vergleich zu anderen Wettbewerbern bewertet) und übertrifft frühere Modelle. Auch in Mathematik ist es hervorragend und schneidet bei Prüfungen wie der American Invitational Mathematics Examination (AIME) gut ab. 

Abb. 3. Benchmarking der Codierfähigkeiten von o1.

Mit diesen Fortschritten ist OpenAI o1 eine deutliche Verbesserung gegenüber früheren Modellen wie GPT-4o. Es eröffnet neue Möglichkeiten für KI in Bereichen wie Wirtschaft, Entwicklung, Forschung und Gesundheitswesen. In der Genforschung zum Beispiel kann OpenAI o1 schnell eine große Anzahl von Forschungsarbeiten durchgehen und die wichtigsten Ergebnisse und Verbindungen zwischen genetischen Markern und Krankheiten herausfinden. Sie versteht komplexe wissenschaftliche Sprache und kann wichtige Punkte zusammenfassen, damit sich die Forscher/innen auf die wichtigsten Informationen konzentrieren können. 

Ein genauerer Blick auf die Gedankenkette

Wir haben bereits gesehen, dass OpenAI o1 einen "Chain of Thought"-Gedankenprozess einführt. Er ermöglicht es dem Modell, komplexe Probleme ähnlich wie menschliche kognitive Strategien zu bewältigen. Das Modell kann Herausforderungen in kleinere, überschaubare Schritte zerlegen und seinen Ansatz iterativ verfeinern. Im Gegensatz zu früheren Modellen, die sich auf eine sofortige Mustererkennung verließen, optimiert o1 seine Entscheidungsfindung, indem es mehrere Argumentationspfade erkundet und durch Verstärkungslernen sowohl aus Erfolgen als auch aus Fehlern lernt.

OpenAI hat sich entschieden, diese rohen Gedankenketten vor den Nutzern zu verbergen und stattdessen Zusammenfassungen anzubieten, die einen Einblick in die Überlegungen des Modells geben, ohne jeden Schritt offenzulegen. Diese Entscheidung trägt dazu bei, den Missbrauch des Denkprozesses des Modells zu verhindern, und ermöglicht es den Entwicklern, die Sicherheit und Ausrichtung der KI zu überwachen und zu verfeinern. Durch die interne Beobachtung der verborgenen Ketten können die Entwickler/innen sicherstellen, dass o1 die ethischen Richtlinien einhält und schädliches Verhalten vermeidet.

Benchmarking OpenAI o1

OpenAI o1 zeigt große Verbesserungen gegenüber GPT-4o in mehreren Benchmarks, die das logische Denken und die Problemlösungsfähigkeiten testen. Bei der American Invitational Mathematics Examination (AIME) 2024, einer anspruchsvollen Mathematikprüfung für Spitzenschüler/innen, erreichte o1 mit nur einer Probe pro Problem eine Trefferquote von 74 %, verglichen mit 12 % bei GPT-4o. Mit einem Konsens über 64 Stichproben stieg die Genauigkeit auf 83%, und mit einer verfeinerten Re-Ranking-Methode mit 1.000 Stichproben erreichte sie 93% und gehörte damit zu den 500 besten Schülern des Landes. 

Neben der Mathematik schnitt o1 auch bei Benchmarks, die wissenschaftliches Wissen testen, außergewöhnlich gut ab, z. B. beim GPQA Diamond, der Fragen auf Doktoranden-Niveau in Chemie, Physik und Biologie umfasst. Bemerkenswerterweise übertraf o1 in diesem Test als erstes KI-Modell menschliche Experten mit Doktortitel. Außerdem übertraf es GPT-4o in 54 von 57 Kategorien des MMLU-Benchmarks, bei dem das Verständnis in verschiedenen Fächern, darunter Geschichte, Recht und Wissenschaft, getestet wird.

Abb. 4. Benchmarking OpenAI o1.

Praktische Erfahrungen mit OpenAI o1

OpenAI hat zwei neue KI-Modelle der o1-Serie vorgestellt: o1-preview und o1-mini. Das Modell o1-preview wurde entwickelt, um tiefer zu denken, bevor es antwortet, und ist besonders gut für komplexe Denkaufgaben in den Bereichen Wissenschaft, Programmierung und Mathe geeignet. Es bietet fortschrittliche Problemlösungsfähigkeiten für Nutzer/innen, die anspruchsvolle Projekte angehen. Im Gegensatz dazu ist o1-mini ein kleineres, schnelleres und kostengünstigeres Modell, das speziell für MINT-Aufgaben, insbesondere Mathematik und Programmierung, optimiert ist. o1-mini verfügt zwar über ein geringeres Weltwissen, erreicht aber fast die gleiche Leistung wie o1-preview bei wichtigen Wettbewerben wie dem AIME-Mathematikwettbewerb und den Codeforces-Herausforderungen, und das zu 80 % geringeren Kosten.

Abb. 5. Vergleich der OpenAI-Modelle.

Du kannst diese Modelle über verschiedene OpenAI-Plattformen ausprobieren. ChatGPT Plus- und Team-Benutzer können sowohl o1-preview als auch o1-mini über den Model Picker aufrufen und die erweiterten Argumentationsmöglichkeiten direkt in ChatGPT erleben. Entwickler mit API-Nutzungsstufe 5 können mit dem Prototyping dieser Modelle beginnen, auch wenn einige erweiterte Funktionen noch in der Entwicklung sind. OpenAI plant außerdem, o1-mini bald für alle ChatGPT Free-Nutzer/innen verfügbar zu machen. Wenn du diese Modelle erkundest, kannst du die Fortschritte in der KI aus erster Hand erfahren und das Modell auswählen, das am besten zu deinen Bedürfnissen passt.

Ethische KI-Überlegungen von OpenAI

OpenAI hat sich bei der Entwicklung der o1-Modellreihe auf Ethik und Sicherheit konzentriert. Bevor die Modelle o1-preview und o1-mini auf den Markt kamen, wurden sie gründlich evaluiert, einschließlich externer Tests und interner Prüfungen auf Risiken wie unzulässige Inhalte, Halluzinationen und Verzerrungen. Die Modelle sind mit erweiterten Denkfähigkeiten ausgestattet, um Sicherheitsregeln besser zu verstehen und zu befolgen. 

OpenAI hat auch Sicherheitsvorkehrungen wie Blocklisten und Sicherheitsklassifikatoren eingeführt, um Risiken zu bewältigen. Das o1-Modell hat eine mittlere Gesamtrisikobewertung. Es hat geringe Risiken in Bereichen wie Cybersicherheit und Modellautonomie und mittlere Risiken in Bereichen wie CBRN (chemische, biologische, radiologische und nukleare) Inhalte und Überzeugungsarbeit. Die Sicherheitsberatungsgruppe und der Vorstand von OpenAI haben diese Sicherheitsmaßnahmen überprüft, um sicherzustellen, dass das Modell sicher und ethisch vertretbar ist.

Abb. 6. OpenAI o1 Scorecard.

Von Gerüchten zur Realität: OpenAI o1 betritt die Bühne

OpenAI o1 ist ein großer Schritt vorwärts in der KI und lässt einige der ersten Gerüchte Wirklichkeit werden. Im Gegensatz zu GPT-4o denkt die o1-Serie tiefer, indem sie einen "Chain of Thought"-Ansatz verwendet, der komplexe Probleme in kleinere Schritte zerlegt und so bessere Antworten ermöglicht. Derzeit ist eine frühe Vorschau auf ChatGPT und die API verfügbar. OpenAI plant, Funktionen wie das Browsen im Internet und das Hochladen von Dateien und Bildern hinzuzufügen. OpenAI hat außerdem angekündigt, dass sie neben der neuen OpenAI o1-Serie auch weiterhin Modelle der GPT-Serie entwickeln und veröffentlichen wollen. Mit der Weiterentwicklung der KI ebnen Fortschritte wie diese den Weg für leistungsfähigere, intuitivere und vielseitigere KI-Systeme, die die menschlichen Bedürfnisse besser unterstützen und verstehen können.

Bleib auf dem Laufenden, indem du unserer Community beitrittst! In unserem GitHub-Repository erfährst du, wie wir Pionierarbeit für KI-Lösungen in Bereichen wie der Fertigung und dem Gesundheitswesen leisten. 🚀

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens