Erlebe mit uns einen Keynote-Vortrag von der YOLO Vision 2024, in dem es darum geht, wie die Open-Source-Tools von Hugging Facedie KI-Entwicklung voranbringen.
Die Auswahl der richtigen Algorithmen ist nur ein Teil des Aufbaus wirkungsvoller Computer Vision Lösungen. KI-Ingenieure arbeiten oft mit großen Datensätzen, stimmen Modelle für bestimmte Aufgaben ab und optimieren KI-Systeme für die reale Welt. Da sich KI-Anwendungen immer schneller durchsetzen, wächst auch der Bedarf an Tools, die diese Prozesse vereinfachen.
Auf der YOLO Vision 2024 (YV24), der jährlichen Hybrid-Veranstaltung von Ultralytics, kamen KI-Experten und Technikbegeisterte zusammen, um die neuesten Innovationen im Bereich Computer Vision zu erkunden. Die Veranstaltung regte Diskussionen zu verschiedenen Themen an, z. B. wie man die Entwicklung von KI-Anwendungen beschleunigen kann.
Ein wichtiges Highlight der Veranstaltung war eine Keynote über Hugging Face, eine Open-Source-KI-Plattform, die das Training, die Optimierung und den Einsatz von Modellen vereinfacht. Pavel Lakubovskii, Ingenieur für maschinelles Lernen bei Hugging Face, erläuterte, wie die Tools von Hugging Face Face die Arbeitsabläufe für Computer-Vision-Aufgaben wie die Erkennung von Objekten in Bildern, die Kategorisierung von Bildern in verschiedene Gruppen und die Erstellung von Vorhersagen ohne vorheriges Training an bestimmten Beispielen (Zero-Shot-Learning) verbessern.
Hugging Face Hub hostet und bietet Zugang zu verschiedenen KI- und Computer Vision-Modellen wie Ultralytics YOLO11. In diesem Artikel fassen wir die wichtigsten Erkenntnisse aus Pavels Vortrag zusammen und zeigen, wie Entwickler/innen die Open-Source-Tools von Hugging Facenutzen können, um KI-Modelle schnell zu erstellen und einzusetzen.
Pavel begann seinen Vortrag mit der Vorstellung von Hugging Face , einer Open-Source-KI-Plattform, die bereits trainierte Modelle für eine Vielzahl von Anwendungen anbietet. Diese Modelle wurden für verschiedene Bereiche der KI entwickelt, darunter die Verarbeitung natürlicher Sprache (NLP), Computer Vision und multimodale KI, so dass die Systeme verschiedene Arten von Daten wie Text, Bilder und Audio verarbeiten können.
Pavel erwähnte, dass der Hugging Face Hub mittlerweile über 1 Million Modelle beherbergt und Entwickler/innen leicht Modelle finden können, die für ihre spezifischen Projekte geeignet sind. Hugging Face zielt darauf ab, die KI-Entwicklung zu vereinfachen, indem es Tools für das Training, die Feinabstimmung und den Einsatz von Modellen anbietet. Wenn Entwickler/innen mit verschiedenen Modellen experimentieren können, vereinfacht dies den Prozess der Integration von KI in reale Anwendungen.
Ursprünglich war Hugging Face für NLP bekannt, hat sich aber inzwischen auf Computer Vision und multimodale KI ausgeweitet und ermöglicht es Entwicklern, ein breiteres Spektrum an KI-Aufgaben zu bewältigen. Außerdem gibt es eine starke Community, in der Entwickler/innen zusammenarbeiten, Erkenntnisse austauschen und über Foren, Discord und GitHub Unterstützung erhalten können.
Pavel erläuterte, wie die Tools von Hugging Facedie Entwicklung von Computer Vision-Anwendungen erleichtern. Entwickler/innen können sie für Aufgaben wie Bildklassifizierung, Objekterkennung und Bildverarbeitungsanwendungen nutzen.
Er wies auch darauf hin, dass viele dieser Bildverarbeitungsaufgaben mit vortrainierten Modellen gelöst werden können, die auf dem Hugging Face Hub verfügbar sind, was Zeit spart, weil das Training von Grund auf entfällt. Tatsächlich bietet Hugging Face über 13.000 vortrainierte Modelle für Bildklassifizierungsaufgaben, darunter solche für die Klassifizierung von Lebensmitteln, Haustieren und Emotionen.
Er betonte die Zugänglichkeit dieser Modelle: "Du musst wahrscheinlich nicht einmal ein Modell für dein Projekt trainieren - vielleicht findest du im Hub eines, das bereits von jemandem aus der Community trainiert wurde."
Als weiteres Beispiel erläuterte Pavel, wie Hugging Face bei der Objekterkennung helfen kann, einer Schlüsselfunktion in der Computer Vision, die zur Identifizierung und Lokalisierung von Objekten in Bildern verwendet wird. Selbst bei begrenzten Daten können die im Hugging Face Hub verfügbaren Modelle die Objekterkennung effizienter machen.
Er gab auch einen kurzen Überblick über verschiedene Modelle, die für diese Aufgabe gebaut wurden und die du auf Hugging Face finden kannst:
Pavel legte dann den Schwerpunkt auf die praktische Arbeit mit den Hugging Face und erläuterte drei Möglichkeiten, wie Entwickler sie nutzen können: Modelle erkunden, schnell testen und sie weiter anpassen.
Er demonstrierte, wie Entwickler die Modelle direkt im Hugging Face Hub durchsuchen können, ohne Code zu schreiben, so dass es einfach ist, Modelle sofort über eine interaktive Schnittstelle zu testen. "Du kannst es ausprobieren, ohne auch nur eine Zeile Code zu schreiben oder das Modell auf deinen Computer herunterzuladen", fügte Pavel hinzu. Da einige Modelle sehr groß sind, hilft der Hub, Speicher- und Verarbeitungsbeschränkungen zu vermeiden.
Außerdem können Entwickler mit der Hugging Face Inference API KI-Modelle mit einfachen API-Aufrufen ausführen. Sie eignet sich hervorragend für schnelle Tests, Proof-of-Concept-Projekte und Rapid Prototyping, ohne dass ein komplexes Setup erforderlich ist.
Für fortgeschrittene Anwendungsfälle können Entwickler das Hugging Face Transformers-Framework nutzen, ein Open-Source-Tool, das vortrainierte Modelle für Text-, Bild- und Audioaufgaben bietet und sowohl PyTorch als auch TensorFlow unterstützt. Pavel erklärte, dass Entwickler/innen mit nur zwei Zeilen Code ein Modell aus dem Hugging Face Hub abrufen und es mit einem Vorverarbeitungstool, wie z. B. einem Bildprozessor, verknüpfen können, um Bilddaten für Vision AI-Anwendungen zu analysieren.
Als Nächstes erklärte Pavel, wie Hugging Face KI-Workflows rationalisieren kann. Ein wichtiges Thema war die Optimierung des Aufmerksamkeitsmechanismus in Transformers, einer Kernfunktion von Deep-Learning-Modellen, die ihnen hilft, sich auf die wichtigsten Teile der Eingabedaten zu konzentrieren. Dies verbessert die Genauigkeit von Aufgaben wie Sprachverarbeitung und Computer Vision. Allerdings kann dies ressourcenintensiv sein.
Die Optimierung des Aufmerksamkeitsmechanismus kann den Speicherverbrauch erheblich reduzieren und gleichzeitig die Geschwindigkeit erhöhen. Pavel erklärt: "Wenn du zum Beispiel zu einer effizienteren Aufmerksamkeitsimplementierung wechselst, kannst du eine bis zu 1,8-mal schnellere Leistung erzielen."
Hugging Face bietet integrierte Unterstützung für effizientere Aufmerksamkeitsimplementierungen innerhalb des Transformers-Frameworks. Entwickler können diese Optimierungen aktivieren, indem sie beim Laden eines Modells einfach eine alternative Aufmerksamkeitsimplementierung angeben.
Er sprach auch über die Quantisierung, eine Technik, die KI-Modelle kleiner macht, indem sie die Genauigkeit der verwendeten Zahlen reduziert, ohne die Leistung zu sehr zu beeinträchtigen. Dadurch benötigen die Modelle weniger Speicherplatz und laufen schneller, was sie für Geräte mit begrenzter Rechenleistung, wie Smartphones und eingebettete Systeme, besser geeignet macht.
Um die Effizienz weiter zu steigern, hat Pavel die Hugging Face Optimum-Bibliothek eingeführt, eine Reihe von Tools zur Optimierung und Bereitstellung von Modellen. Mit nur wenigen Zeilen Code können Entwickler/innen Quantisierungstechniken anwenden und Modelle in effiziente Formate wie ONNX (Open Neural Network Exchange) konvertieren, sodass sie problemlos auf verschiedenen Hardwaretypen, einschließlich Cloud-Servern und Edge-Geräten, laufen können.
Schließlich erwähnte Pavel noch die Vorteile von Torch Compile, einer Funktion in PyTorch , die die Verarbeitung von Daten durch KI-Modelle optimiert, sodass sie schneller und effizienter laufen. Hugging Face integriert Torch Compile in seine Transformers- und Optimum-Bibliotheken, sodass Entwickler diese Leistungsverbesserungen mit minimalen Codeänderungen nutzen können.
Durch die Optimierung der Berechnungsstruktur des Modells kann Torch Compile die Inferenzzeiten beschleunigen und die Bildrate von 29 auf 150 Bilder pro Sekunde erhöhen, ohne die Genauigkeit oder Qualität zu beeinträchtigen.
Anschließend ging Pavel kurz darauf ein, wie Entwickler/innen Vision AI-Modelle mit den Hugging Face erweitern und einsetzen können, nachdem sie das richtige Modell ausgewählt und den besten Ansatz für die Entwicklung gewählt haben.
So können Entwickler/innen mit Gradio und Streamlit interaktive KI-Anwendungen entwickeln. Gradio ermöglicht es Entwicklern, webbasierte Schnittstellen für Machine-Learning-Modelle zu erstellen, während Streamlit hilft, interaktive Datenanwendungen mit einfachen Python zu erstellen.
Pavel betonte auch: "Du musst nicht alles von Grund auf neu schreiben", und verwies auf die Leitfäden, Schulungshefte und Beispielskripte, die Hugging Face bereitstellt. Diese Ressourcen helfen Entwicklern, schnell loszulegen, ohne dass sie alles von Grund auf neu entwickeln müssen.
Zum Abschluss seiner Keynote fasste Pavel die Vorteile der Nutzung von Hugging Face Hub zusammen. Er betonte, wie es die Modellverwaltung und die Zusammenarbeit vereinfacht. Er wies auch auf die Verfügbarkeit von Leitfäden, Notizbüchern und Tutorials hin, die sowohl Anfängern als auch Experten helfen können, KI-Modelle zu verstehen und umzusetzen.
"Es gibt bereits viele coole Räume auf dem Hub. Du kannst ähnliche Spaces finden, den gemeinsamen Code klonen, ein paar Zeilen ändern, das Modell durch dein eigenes ersetzen und es zurückschicken", erklärt er und ermutigt Entwickler, die Flexibilität der Plattform zu nutzen.
In seinem Vortrag bei YV24 erzählte Pavel, wie Hugging Face Tools anbietet, die das Training, die Optimierung und den Einsatz von KI-Modellen unterstützen. Innovationen wie Transformers, Optimum und Torch Compile helfen Entwicklern, die Leistung ihrer Modelle zu verbessern.
Da KI-Modelle immer effizienter werden, machen es Fortschritte bei der Quantisierung und dem Edge Deployment einfacher, sie auf ressourcenbeschränkten Geräten auszuführen. Diese Verbesserungen in Kombination mit Tools wie Hugging Face und fortschrittlichen Computer-Vision-Modellen wie Ultralytics YOLO11 sind der Schlüssel zum Aufbau skalierbarer, leistungsstarker Vision-KI-Anwendungen.
Werde Teil unserer wachsenden Community! Erkunde unser GitHub-Repository, um mehr über KI zu erfahren, und sieh dir unsere yolo an, um deine Vision-KI-Projekte zu starten. Interessierst du dich für Innovationen wie Computer Vision im Gesundheitswesen oder Computer Vision in der Landwirtschaft? Besuche unsere Lösungsseiten, um mehr zu erfahren!
Beginne deine Reise in die Zukunft des maschinellen Lernens