Grüner Scheck
Link in die Zwischenablage kopiert

Generative KI verändert die Zukunft der Computer Vision

Entdecke interessante Einblicke aus einer Podiumsdiskussion auf der YOLO Vision 2024. Erfahre, wie generative KI den Weg für Echtzeit-Vision-KI-Modelle vorgibt.

Generative KI ist ein Teilbereich der künstlichen Intelligenz (KI), der neue Inhalte wie Bilder, Texte oder Audiodateien erstellt, indem er Muster aus vorhandenen Daten lernt. Dank der jüngsten Fortschritte kann sie jetzt verwendet werden, um sehr realistische Inhalte zu erstellen, die oft die menschliche Kreativität imitieren.

Die Auswirkungen der generativen KI gehen jedoch über die bloße Erstellung von Inhalten hinaus. Mit der Weiterentwicklung von Echtzeit-Computer-Vision-Modellen wie den YOLO Ultralytics definiert die generative KI auch neu, wie visuelle Daten verarbeitet und ergänzt werden, und ebnet den Weg für innovative Anwendungen in der realen Welt. 

Dieser neue technologische Wandel war ein interessantes Gesprächsthema auf der YOLO Vision 2024 (YV24), einer jährlichen Hybrid-Veranstaltung, die von Ultralytics ausgerichtet wird. Bei YV24 kamen KI-Enthusiasten und Branchenführer zusammen, um über die neuesten Durchbrüche in der Computer Vision zu diskutieren. Im Mittelpunkt der Veranstaltung standen Innovation, Effizienz und die Zukunft von Echtzeit-KI-Lösungen.

Einer der wichtigsten Höhepunkte der Veranstaltung war eine Podiumsdiskussion zum Thema YOLO im Zeitalter der generativen KI. An der Diskussion nahmen Glenn Jocher, Gründer und CEO von Ultralytics, Jing Qiu, Senior Machine Learning Engineer bei Ultralytics, und Ao Wang von der Tsinghua Universität teil. Sie untersuchten, wie generative KI die Computer Vision beeinflusst und welche Herausforderungen bei der Entwicklung praktischer KI-Modelle bestehen.

In diesem Artikel greifen wir die wichtigsten Erkenntnisse aus ihrer Diskussion auf und schauen uns genauer an, wie generative KI die Vision AI verändert.

Die Entwicklung der Ultralytics YOLO

Neben Glenn Jocher haben viele erfahrene Ingenieure eine wichtige Rolle bei der Entwicklung derYOLO Ultralytics gespielt. Einer von ihnen, Jing Qiu, erzählte von seinem unerwarteten Start mit YOLO. Er erklärte, dass seine Leidenschaft für KI während seiner Studienzeit begann. Er verbrachte viel Zeit damit, dieses Gebiet zu erforschen und zu lernen. Jing Qiu erinnerte sich, wie er mit Glenn Jocher auf GitHub in Kontakt kam und sich in verschiedene KI-Projekte einbrachte.

Glenn Jocher ergänzte die Worte von Jing Qiu und beschrieb GitHub als "eine unglaubliche Möglichkeit, sich auszutauschen - wo Menschen, die du noch nie getroffen hast, zusammenkommen, um sich gegenseitig zu helfen und zu ihrer Arbeit beizutragen. Es ist eine großartige Gemeinschaft und ein wirklich guter Weg, um in die KI einzusteigen."

Abb. 1. Glenn Jocher und Jing Qiu sprechen auf der Bühne bei YV24.

Jing Qius Interesse an KI und seine Arbeit an Ultralytics YOLOv5 halfen dabei, das Modell zu verfeinern. Später spielte er eine Schlüsselrolle bei der Entwicklung von Ultralytics YOLOv8das weitere Verbesserungen mit sich brachte. Er beschreibt es als eine unglaubliche Reise. Heute arbeitet Jing Qiu weiter an der Verbesserung und Weiterentwicklung von Modellen wie Ultralytics YOLO11

YOLOv10: Optimiert für reale Leistung

Ao Wang, der von China aus an der Podiumsdiskussion teilnahm, stellte sich als Doktorand vor. Ursprünglich hat er Software Engineering studiert, aber seine Leidenschaft für KI hat ihn dazu gebracht, sich für Computer Vision und Deep Learning zu interessieren.

Beim Experimentieren mit verschiedenen KI-Techniken und -Modellen stieß er zum ersten Mal auf das berühmte YOLO . Er war beeindruckt von der Geschwindigkeit und Genauigkeit des Modells, was ihn dazu inspirierte, sich intensiver mit Computer Vision-Aufgaben wie der Objekterkennung zu beschäftigen. Vor kurzem hat Ao Wang an YOLOv10, einer neuen Version des YOLO , mitgearbeitet. Seine Forschung konzentrierte sich auf die Optimierung des Modells, um es schneller und genauer zu machen.

Der entscheidende Unterschied zwischen generativer KI und Vision AI

Jing Qiu wies darauf hin, dass generative KI und Vision AI sehr unterschiedliche Ziele haben. Generative KI schafft oder erzeugt Dinge wie Texte, Bilder und Videos, während Vision AI bereits Vorhandenes analysiert, vor allem Bilder.

Glenn Jocher betonte, dass auch die Größe einen großen Unterschied ausmacht. Generative KI-Modelle sind riesig und enthalten oft Milliarden von Parametern - interne Einstellungen, die dem Modell helfen, aus Daten zu lernen. Computer-Vision-Modelle sind viel kleiner. Er sagte: "Das kleinste YOLO , das wir haben, ist etwa tausendmal kleiner als das kleinste LLM [Large Language Model]. Also 3 Millionen Parameter im Vergleich zu drei Milliarden."

Abb. 3. Die Podiumsdiskussion über generative KI und Vision AI bei YV24.

Jing Qiu fügte hinzu, dass die Trainings- und Einsatzprozesse für generative KI und Computer Vision sehr unterschiedlich sind. Generative KI braucht riesige, leistungsstarke Server, um zu laufen. Modelle wie YOLO hingegen sind auf Effizienz ausgelegt und können auf Standardhardware trainiert und eingesetzt werden. Das macht dieYOLO Ultralytics praktikabler für den realen Einsatz.

Obwohl sie unterschiedlich sind, beginnen diese beiden Bereiche, sich zu verflechten. Glenn Jocher erläuterte, dass die generative KI der Vision AI neue Fortschritte bringt und die Modelle intelligenter und effizienter macht. 

Der Einfluss der generativen KI auf die Computer Vision

Die generative KI hat sich schnell weiterentwickelt, und diese Durchbrüche beeinflussen viele andere Bereiche der künstlichen Intelligenz, darunter auch die Computer Vision. Als Nächstes wollen wir einige faszinierende Erkenntnisse aus dem Panel zu diesem Thema durchgehen.

Fortschritte bei der Hardware ermöglichen KI-Innovationen

Zu Beginn des Panels erklärte Glenn Jocher, dass es Ideen zum maschinellen Lernen schon lange gibt, aber die Computer waren nicht leistungsfähig genug, um sie umzusetzen. KI-Ideen brauchten stärkere Hardware, um sie in die Tat umzusetzen.

Der Aufstieg der GPUs (Graphics Processing Units) in den letzten 20 Jahren mit ihren parallelen Verarbeitungsmöglichkeiten hat alles verändert. Sie machten das Training von KI-Modellen viel schneller und effizienter, wodurch sich Deep Learning in rasantem Tempo entwickeln konnte.

Heutzutage verbrauchen KI-Chips wie TPUs (Tensor Processing Units) und optimierte Grafikprozessoren (GPUs) weniger Strom und können gleichzeitig größere und komplexere Modelle verarbeiten. Das hat KI zugänglicher und nützlicher für reale Anwendungen gemacht.

Mit jeder neuen Hardwareverbesserung werden sowohl generative KI als auch Computer Vision Anwendungen leistungsfähiger. Diese Fortschritte machen Echtzeit-KI schneller, effizienter und für den Einsatz in mehr Branchen bereit.

Wie generative KI Modelle für die Objekterkennung entwickelt

Auf die Frage, wie generative KI die Computer Vision beeinflusst, sagte Jing Qiu, dass Transformatoren - Modelle, die der KI helfen, sich auf die wichtigsten Teile eines Bildes zu konzentrieren - die Art und Weise, wie KI Bilder versteht und verarbeitet, verändert haben. Der erste große Schritt war DETR (Detection Transformer), das diesen neuen Ansatz für die Objekterkennung nutzte. Er verbesserte die Genauigkeit, hatte aber Leistungsprobleme, die ihn in manchen Fällen langsamer machten.

Um dieses Problem zu lösen, haben Forscher Hybridmodelle wie RT-DETR entwickelt. Diese Modelle kombinieren Convolutional Neural Networks (CNNs, d.h. Deep-Learning-Modelle, die automatisch lernen und Merkmale aus Bildern extrahieren) und Transformatoren und sorgen so für einen Ausgleich zwischen Geschwindigkeit und Genauigkeit. Dieser Ansatz nutzt die Vorteile von Transformatoren und macht die Objekterkennung schneller.

Interessanterweise verwendet YOLOv10 transformatorbasierte Aufmerksamkeitsebenen (Teile des Modells, die wie ein Scheinwerfer die wichtigsten Bereiche in einem Bild hervorheben, während weniger relevante Details ignoriert werden), um seine Leistung zu steigern. 

Ao Wang erwähnte auch, wie generative KI die Art und Weise, wie Modelle trainiert werden, verändert. Techniken wie die maskierte Bildmodellierung helfen der KI, effizienter aus Bildern zu lernen, sodass weniger große, manuell beschriftete Datensätze benötigt werden. Das macht das Computer Vision Training schneller und weniger ressourcenintensiv.

Die Zukunft der generativen KI und der Vision AI 

Eine weitere wichtige Idee, die auf dem Podium diskutiert wurde, war, wie generative KI und Vision AI zusammenkommen können, um leistungsfähigere Modelle zu entwickeln. Glenn Jocher erklärte, dass diese beiden Ansätze zwar unterschiedliche Stärken haben, ihre Kombination aber neue Möglichkeiten eröffnen könnte. 

KI-Modelle wie YOLO zerlegen ein Bild oft in ein Raster, um Objekte zu identifizieren. Diese gitterbasierte Methode könnte Sprachmodellen helfen, Details besser zu erkennen und zu beschreiben - eine Herausforderung, mit der viele Sprachmodelle heute konfrontiert sind. Im Grunde könnte die Kombination dieser Techniken zu Systemen führen, die genau erkennen und klar erklären können, was sie sehen.

Abb. 4. Die Zukunft der generativen und visionären KI. Bild vom Autor.

Die wichtigsten Erkenntnisse

Generative KI und Computer Vision entwickeln sich gemeinsam weiter. Während die generative KI Bilder und Videos erstellt, verbessert sie auch die Bild- und Videoanalyse, indem sie neue innovative Ideen einbringt, die die KI-Modelle genauer und effizienter machen könnten. 

In dieser aufschlussreichen YV24-Podiumsdiskussion teilten Glenn Jocher, Jing Qiu und Ao Wang ihre Gedanken darüber, wie diese Technologien die Zukunft prägen werden. Mit besserer KI-Hardware werden sich generative KI und Vision AI weiterentwickeln und zu noch größeren Innovationen führen. Diese beiden Bereiche arbeiten zusammen, um intelligentere, schnellere und nützlichere KI für das tägliche Leben zu schaffen.

Tritt unserer Community bei und erkunde unser GitHub-Repository, um mehr über Vision AI zu erfahren. Schau dir unsere Lizenzierungsoptionen an, um deine Computer Vision Projekte zu starten. Interessierst du dich für Innovationen wie KI in der Fertigung oder Computer Vision beim selbstfahrenden Fahren? Besuche unsere Lösungsseiten, um mehr zu erfahren. 

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens