2024 beginnt mit einer generativen KI-Welle

Ein Blick auf die spannenden KI-Innovationen des ersten Quartals 2024. Wir berichten über bahnbrechende Entwicklungen wie OpenAIs Sora AI, Neuralinks Gehirnchip und die neuesten LLMs.

Geschrieben von

Abirami Vina

min lesen

Apr 12, 2024

Apr 13, 2025

Atemberaubende Visuals von AI

Sora von OpenAI

Stability AI's Stabile Diffusion 3

GoogleDas Lumiere

Die Zukunft scheint hier zu sein

Elon Musks Neuralink

Disneys HoloTile-Boden

Apples Vision Pro

Devin der Kognition

Ehrende Erwähnungen

Bleib mit uns über KI-Trends auf dem Laufenden!

Die KI-Community scheint fast täglich Schlagzeilen zu machen. Die ersten Monate des Jahres 2024 waren aufregend und vollgepackt mit neuen KI-Innovationen. Von leistungsstarken neuen großen Sprachmodellen bis hin zu menschlichen Gehirnimplantaten – das Jahr 2024 verspricht erstaunlich zu werden.

Wir sehen, wie KI Branchen verändert, Informationen zugänglicher macht und sogar die ersten Schritte zur Verschmelzung unseres Geistes mit Maschinen unternimmt. Spulen wir das erste Quartal 2024 zurück und werfen einen genaueren Blick auf die Fortschritte, die in wenigen Monaten in der KI erzielt wurden.

LLMs sind im Trend

Large Language Models (LLMs), die darauf ausgelegt sind, menschliche Sprache auf der Grundlage großer Mengen von Textdaten zu verstehen, zu generieren und zu manipulieren, standen im ersten Quartal 2024 im Mittelpunkt. Viele große Technologieunternehmen haben ihre eigenen LLM-Modelle auf den Markt gebracht, jedes mit einzigartigen Funktionen. Der unglaubliche Erfolg früherer LLMs wie GPT-3 hat diesen Trend inspiriert. Hier sind einige der bemerkenswertesten LLM-Veröffentlichungen von Anfang 2024.

Anthropic's Claude 3

Anthropic veröffentlichte Claude 3 am 14. März 2024. Das Modell Claude 3 gibt es in drei Versionen: Opus, Sonett und Haiku, die jeweils unterschiedliche Märkte und Zwecke bedienen. Haiku, das schnellste Modell, ist für schnelle, einfache Reaktionen optimiert. Sonnet balanciert Geschwindigkeit mit Intelligenz und ist auf Unternehmensanwendungen ausgerichtet. Opus, die fortschrittlichste Version, bietet unvergleichliche Intelligenz und Argumentation und ist ideal für komplexe Aufgaben und das Erreichen von Top-Benchmarks.

Claude 3 verfügt über viele erweiterte Funktionen und Verbesserungen:

Verbesserte mehrsprachige Konversationen: Verbesserte Fähigkeiten in Sprachen wie Spanisch, Japanisch und Französisch.
‍
Erweiterte Bildverarbeitungsfunktionen: Kann verschiedene Bildformate verarbeiten.
‍
Minimierte Ablehnungen: Zeigt mehr Verständnis mit weniger unnötigen Ablehnungen, was auf ein verbessertes kontextuelles Verständnis hinweist.
‍
Erweitertes Kontextfenster: Es bietet ein 200K-Kontextfenster, ist aber in der Lage, Eingaben über 1 Million Token basierend auf den Kundenanforderungen zu verarbeiten.

__wf_reserved_inherit — Abb. 1. Claude 3 ist kontextbezogener als frühere Versionen.

‍

DBRX von Databricks

Databricks DBRX ist ein offener, universeller LLM, der am 27. März 2024 von Databricks veröffentlicht wurde. DBRX schneidet in verschiedenen Benchmarks sehr gut ab, darunter Sprachverständnis, Programmierung und Mathematik. Es übertrifft andere etablierte Modelle und ist dabei etwa 40 % kleiner als ähnliche Modelle.

‍

DBRX wurde mithilfe der Next-Token-Vorhersage mit einer feinkörnigen MoE-Architektur (Mixture-of-Experts) trainiert, weshalb wir erhebliche Verbesserungen bei der Trainings- und Inferenzleistung feststellen können. Seine Architektur ermöglicht es dem Modell, das nächste Wort in einer Sequenz genauer vorherzusagen, indem es eine Vielzahl von spezialisierten Teilmodellen (die "Experten") konsultiert. Diese Untermodelle eignen sich gut für den Umgang mit verschiedenen Arten von Informationen oder Aufgaben.

GoogleGemini 1.5

Google hat am 15. Februar 2024 Gemini 1.5 vorgestellt, ein rechenstarkes, multimodales KI-Modell, das umfangreiche Text-, Video- und Audiodaten analysieren kann. Das neueste Modell ist noch fortschrittlicher in Bezug auf Leistung, Effizienz und Fähigkeiten. Ein Hauptmerkmal von Gemini 1.5 ist der Durchbruch beim Verstehen langer Kontexte. Das Modell ist in der Lage, bis zu 1 Million Token konsistent zu verarbeiten. Die Fähigkeiten von Gemini 1.5 sind auch einer neuen MoE-basierten Architektur zu verdanken.

‍

Hier sind einige der 1.5 interessantesten Funktionen von Gemini:

Verbesserte Datenverarbeitung: Ermöglicht das direkte Hochladen von großen PDFs, Code-Repositories oder langen Videos als Prompts. Das Modell kann modalitätsübergreifend denken und Text ausgeben.
‍
Mehrere Datei-Uploads und Abfragen: Entwickler können jetzt mehrere Dateien hochladen und Fragen stellen.
‍
Kann für verschiedene Aufgaben verwendet werden: Es ist für die Skalierung verschiedener Aufgaben optimiert und zeigt Verbesserungen in Bereichen wie Mathematik, Naturwissenschaften, logisches Denken, Mehrsprachigkeit, Videoverständnis und Code

Atemberaubende Visuals von AI

Im ersten Quartal 2024 wurden generative KI-Modelle vorgestellt, die so reale Bilder erzeugen können, dass sie Debatten über die Zukunft der sozialen Medien und den Fortschritt der KI ausgelöst haben. Lassen Sie uns einen Blick auf die Modelle werfen, die das Gespräch anregen.

Sora von OpenAI

OpenAI, der Schöpfer von ChatGPTkündigte am 15. Februar 2024 ein hochmodernes Text-to-Video-Deep-Learning-Modell namens Sora an. Sora ist ein Text-zu-Video-Generator, der in der Lage ist, minutenlange Videos mit hoher visueller Qualität basierend auf textuellen Benutzeraufforderungen zu generieren.

Sehen Sie sich zum Beispiel die folgende Eingabeaufforderung an.

"Eine wunderschön gerenderte Papierwelt eines Korallenriffs, voller bunter Fische und Meerestiere."

Und hier ist ein Bild aus dem Ausgabevideo.

‍

Die Architektur von Sora macht dies möglich, indem sie Diffusionsmodelle für die Texturerzeugung und Transformermodelle für die strukturelle Kohärenz miteinander verbindet. Bisher wurde Red Teamer und einer ausgewählten Gruppe von bildenden Künstlern, Designern und Filmemachern Zugang zu Sora gewährt, um die Risiken zu verstehen und Feedback zu erhalten.

Stability AI's Stabile Diffusion 3

Stability AI kündigte am 22. Februar 2024 die Einführung von Stable Diffusion 3, einem Text-zu-Bild-Generierungsmodell, an. Das Modell kombiniert die Architektur des Diffusionstransformators und die Strömungsanpassung. Sie haben noch kein technisches Papier veröffentlicht, aber es gibt ein paar wichtige Funktionen, auf die Sie achten sollten.

‍

Das neueste Modell von Stable Diffusion bietet eine verbesserte Leistung, Bildqualität und Genauigkeit bei der Erstellung von Bildern mit mehreren Motiven. Stable Diffusion 3 wird auch eine Vielzahl von Modellen anbieten, die von 800 Millionen bis 8 Milliarden Parametern reichen. Es ermöglicht den Benutzern, basierend auf ihren spezifischen Anforderungen an Skalierbarkeit und Details zu wählen.

GoogleDas Lumiere

Am 23. Januar 2024 startete Google Lumiere, ein Text-zu-Video-Verbreitungsmodell. Lumiere verwendet eine Architektur namens Space-Time-U-Net, kurz STUNet. Sie hilft Lumiere zu verstehen, wo sich Dinge befinden und wie sie sich in einem Video bewegen. Auf diese Weise kann es flüssige und lebensechte Videos erzeugen.

‍

Mit der Fähigkeit, 80 Bilder pro Video zu generieren, verschiebt Lumière die Grenzen und setzt neue Maßstäbe für die Videoqualität im KI-Bereich. Hier sind einige der Funktionen von Lumière:

Bild-zu-Video: Ausgehend von einem Bild und einer Eingabeaufforderung kann Lumiere Bilder zu Videos animieren.
‍
Stilisierte Erzeugung: Lumiere kann anhand eines einzigen Referenzbildes Videos in bestimmten Stilen erstellen.
‍
Cinemagraphs: Lumiere kann bestimmte Bereiche innerhalb eines Bildes animieren, um dynamische Szenen zu erzeugen, z. B. ein bestimmtes Objekt, das sich bewegt, während der Rest der Szene statisch bleibt.
‍
Video Inpainting: Es kann Teile eines Videos ändern, z. B. die Kleidung der darin enthaltenen Personen ändern oder Hintergrunddetails ändern.

Die Zukunft scheint hier zu sein

Der Beginn des Jahres 2024 hat auch viele KI-Innovationen hervorgebracht, die sich wie aus einem Science-Fiction-Film anfühlen. Dinge, von denen wir früher gesagt hätten, dass sie unmöglich sind, werden jetzt bearbeitet. Die Zukunft scheint mit den folgenden Entdeckungen gar nicht so weit weg zu sein.

Elon Musks Neuralink

Elon Musks Neuralink hat am 29. Januar 2024 erfolgreich seinen drahtlosen Gehirnchip in einen Menschen implantiert. Dies ist ein großer Schritt in Richtung der Verbindung des menschlichen Gehirns mit Computern. Elon Musk teilte mit, dass das erste Produkt von Neuralink mit dem Namen "Telepathy" in der Pipeline ist.

‍

Ziel ist es, Benutzern, insbesondere solchen, die die Funktionalität der Gliedmaßen verloren haben, die Möglichkeit zu geben, Geräte mühelos durch ihre Gedanken zu steuern. Die Anwendungsmöglichkeiten gehen über die Bequemlichkeit hinaus. Elon Musk stellt sich eine Zukunft vor, in der Menschen mit Lähmungen problemlos kommunizieren können.

Disneys HoloTile-Boden

Am 18. Januar 2024 enthüllte Walt Disney Imagineering den HoloTile Floor. Es wurde als der weltweit erste omnidirektionale Laufbandboden für mehrere Personen bezeichnet.

‍

Es kann sich wie Telekinese unter jeder Person oder jedem Objekt bewegen, um ein immersives Virtual- und Augmented-Reality-Erlebnis zu ermöglichen. Sie können in jede Richtung gehen und dabei Kollisionen vermeiden. Disneys HoloTile Floor kann auch auf Theaterbühnen gepflanzt werden, um auf kreative Weise zu tanzen und sich zu bewegen.

Apples Vision Pro

Am 2. Februar 2024 kam das mit Spannung erwartete Vision Pro Headset von Apple auf den Markt. Es verfügt über eine Reihe von Funktionen und Anwendungen, die entwickelt wurden, um das Virtual- und Augmented-Reality-Erlebnis neu zu definieren. Das Vision Pro-Headset richtet sich an ein vielfältiges Publikum, indem es Unterhaltung, Produktivität und räumliches Computing miteinander verbindet. Apple gab stolz bekannt, dass über 600 Apps, von Produktivitätstools bis hin zu Gaming- und Entertainment-Diensten, für die Vision Pro optimiert wurden.

Devin der Kognition

Am 12. März 2024 hat Cognition einen Software-Engineering-Assistenten namens Devin veröffentlicht. Devin ist der weltweit erste Versuch eines autonomen KI-Software-Ingenieurs. Im Gegensatz zu herkömmlichen Programmierassistenten, die Vorschläge machen oder bestimmte Aufgaben erledigen, ist Devin darauf ausgelegt, ganze Softwareentwicklungsprojekte vom ersten Konzept bis zur Fertigstellung abzuwickeln.

Es kann neue Technologien erlernen, vollständige Apps erstellen und bereitstellen, Fehler finden und beheben, eigene Modelle trainieren, zu Open-Source- und Produktionscodebasen beitragen und sogar echte Entwicklungsaufträge von Websites wie Upwork übernehmen.

‍

Devin wurde auf der SWE-Bench bewertet, einem anspruchsvollen Benchmark, bei dem Agenten aufgefordert werden, reale GitHub-Probleme zu lösen, die in Open-Source-Projekten wie Django und scikit-learn auftreten. 13,86 % der Probleme wurden von Anfang bis Ende korrekt gelöst, verglichen mit dem vorherigen Stand der Technik von 1,96 %.

Ehrende Erwähnungen

Es ist so viel passiert, dass es nicht möglich ist, alles in diesem Artikel abzudecken. Aber hier sind einige weitere lobende Erwähnungen.

NVIDIA LATTE3D, das am 21. März 2024 angekündigt wurde, ist ein Text-zu-3D-KI-Modell, das aus Textaufforderungen sofort 3D-Darstellungen erzeugt.
‍
Der neue Text-zu-Video-Generator von Midjourney, der von CEO David Holz angepriesen wird, hat im Januar mit dem Training begonnen und wird voraussichtlich bald starten.
‍
Lenovo hat am 8. Januar 2024 das ThinkBook 13x mit E-Ink-Prisma-Technologie und leistungsstarken KI-Laptops auf den Markt gebracht.

Bleib mit uns über KI-Trends auf dem Laufenden!

Zu Beginn des Jahres 2024 gab es bahnbrechende Fortschritte in der KI und viele wichtige technologische Meilensteine. Aber das ist nur der Anfang dessen, was KI tun kann. Wenn Sie mehr über die neuesten KI-Entwicklungen erfahren möchten, Ultralytics hat alles für Sie.

Schauen Sie sich unser GitHub-Repository an, um unsere neuesten Beiträge zu Computer Vision und KI zu sehen. Sie können sich auch unsere Lösungsseiten ansehen, um zu sehen, wie KI in Branchen wie der Fertigung und dem Gesundheitswesen eingesetzt wird.

2024 beginnt mit einer generativen KI-Welle