Lebenslaufprojekte mit den Open-Source-Tools von Hugging Face vorantreiben

Erlebe mit uns einen Keynote-Vortrag von der YOLO Vision 2024, in dem es darum geht, wie die Open-Source-Tools von Hugging Facedie KI-Entwicklung voranbringen.

Geschrieben von

Abirami Vina

min lesen

Feb 11, 2025

Apr 3, 2025

Hugging Face Hub unterstützt schnellere KI-Entwicklung

Erforschung von Hugging Face Modellen für Computer Vision Anwendungen

Hugging Face für die Objekterkennung

Wie man die Hugging Face Modelle verwendet

Optimierung von KI-Workflows mit Hugging Face

Optimum und Torch kompilieren

Einsatz von Modellen mit Hugging Face Tools

Vorteile von Hugging Face Hub

Die wichtigsten Erkenntnisse

Die Auswahl der richtigen Algorithmen ist nur ein Teil des Aufbaus wirkungsvoller Computer Vision Lösungen. KI-Ingenieure arbeiten oft mit großen Datensätzen, stimmen Modelle für bestimmte Aufgaben ab und optimieren KI-Systeme für die reale Welt. Da sich KI-Anwendungen immer schneller durchsetzen, wächst auch der Bedarf an Tools, die diese Prozesse vereinfachen.

Auf der YOLO Vision 2024 (YV24), der jährlichen Hybrid-Veranstaltung von Ultralytics, kamen KI-Experten und Technikbegeisterte zusammen, um die neuesten Innovationen im Bereich Computer Vision zu erkunden. Die Veranstaltung regte Diskussionen zu verschiedenen Themen an, z. B. wie man die Entwicklung von KI-Anwendungen beschleunigen kann.

Ein wichtiges Highlight der Veranstaltung war eine Keynote über Hugging Face, eine Open-Source-KI-Plattform, die das Training, die Optimierung und den Einsatz von Modellen vereinfacht. Pavel Lakubovskii, Ingenieur für maschinelles Lernen bei Hugging Face, erläuterte, wie die Tools von Hugging Face Face die Arbeitsabläufe für Computer-Vision-Aufgaben wie die Erkennung von Objekten in Bildern, die Kategorisierung von Bildern in verschiedene Gruppen und die Erstellung von Vorhersagen ohne vorheriges Training an bestimmten Beispielen (Zero-Shot-Learning) verbessern.

Hugging Face Hub hostet und bietet Zugang zu verschiedenen KI- und Computer Vision-Modellen wie Ultralytics YOLO11. In diesem Artikel fassen wir die wichtigsten Erkenntnisse aus Pavels Vortrag zusammen und zeigen, wie Entwickler/innen die Open-Source-Tools von Hugging Facenutzen können, um KI-Modelle schnell zu erstellen und einzusetzen.

‍

Hugging Face Hub unterstützt schnellere KI-Entwicklung

Pavel begann seinen Vortrag mit der Vorstellung von Hugging Face , einer Open-Source-KI-Plattform, die bereits trainierte Modelle für eine Vielzahl von Anwendungen anbietet. Diese Modelle wurden für verschiedene Bereiche der KI entwickelt, darunter die Verarbeitung natürlicher Sprache (NLP), Computer Vision und multimodale KI, so dass die Systeme verschiedene Arten von Daten wie Text, Bilder und Audio verarbeiten können.

Pavel erwähnte, dass der Hugging Face Hub mittlerweile über 1 Million Modelle beherbergt und Entwickler/innen leicht Modelle finden können, die für ihre spezifischen Projekte geeignet sind. Hugging Face zielt darauf ab, die KI-Entwicklung zu vereinfachen, indem es Tools für das Training, die Feinabstimmung und den Einsatz von Modellen anbietet. Wenn Entwickler/innen mit verschiedenen Modellen experimentieren können, vereinfacht dies den Prozess der Integration von KI in reale Anwendungen.

Ursprünglich war Hugging Face für NLP bekannt, hat sich aber inzwischen auf Computer Vision und multimodale KI ausgeweitet und ermöglicht es Entwicklern, ein breiteres Spektrum an KI-Aufgaben zu bewältigen. Außerdem gibt es eine starke Community, in der Entwickler/innen zusammenarbeiten, Erkenntnisse austauschen und über Foren, Discord und GitHub Unterstützung erhalten können.

Erforschung von Hugging Face Modellen für Computer Vision Anwendungen

Pavel erläuterte, wie die Tools von Hugging Facedie Entwicklung von Computer Vision-Anwendungen erleichtern. Entwickler/innen können sie für Aufgaben wie Bildklassifizierung, Objekterkennung und Bildverarbeitungsanwendungen nutzen.

Er wies auch darauf hin, dass viele dieser Bildverarbeitungsaufgaben mit vortrainierten Modellen gelöst werden können, die auf dem Hugging Face Hub verfügbar sind, was Zeit spart, weil das Training von Grund auf entfällt. Tatsächlich bietet Hugging Face über 13.000 vortrainierte Modelle für Bildklassifizierungsaufgaben, darunter solche für die Klassifizierung von Lebensmitteln, Haustieren und Emotionen.

Er betonte die Zugänglichkeit dieser Modelle: "Du musst wahrscheinlich nicht einmal ein Modell für dein Projekt trainieren - vielleicht findest du im Hub eines, das bereits von jemandem aus der Community trainiert wurde."

Hugging Face für die Objekterkennung

Als weiteres Beispiel erläuterte Pavel, wie Hugging Face bei der Objekterkennung helfen kann, einer Schlüsselfunktion in der Computer Vision, die zur Identifizierung und Lokalisierung von Objekten in Bildern verwendet wird. Selbst bei begrenzten Daten können die im Hugging Face Hub verfügbaren Modelle die Objekterkennung effizienter machen.

Er gab auch einen kurzen Überblick über verschiedene Modelle, die für diese Aufgabe gebaut wurden und die du auf Hugging Face finden kannst:

Modelle zur Objekterkennung in Echtzeit: Für dynamische Umgebungen, in denen es auf Geschwindigkeit ankommt, bieten Modelle wie Detection Transformer (DETR) die Möglichkeit der Objekterkennung in Echtzeit. DETR wurde auf dem COCO-Datensatz trainiert und ist darauf ausgelegt, multiskalige Merkmale effizient zu verarbeiten, wodurch es sich für zeitkritische Anwendungen eignet.
‍
Vision-Sprachmodelle: Diese Modelle kombinieren Bild- und Textverarbeitung und ermöglichen es KI-Systemen, Bilder mit Beschreibungen abzugleichen oder Objekte über ihre Trainingsdaten hinaus zu erkennen. Beispiele hierfür sind CLIP und SigLIP, die die Bildsuche durch die Verknüpfung von Text und Bildmaterial verbessern und KI-Lösungen in die Lage versetzen, neue Objekte zu erkennen, indem sie ihren Kontext verstehen.
‍
Modelle zur Objekterkennung mit Null-Fotos: Sie können Objekte erkennen, die sie vorher nicht gesehen haben, indem sie die Beziehung zwischen Bildern und Text verstehen. Beispiele dafür sind OwlVit, GroundingDINO und OmDet, die Zero-Shot-Learning nutzen, um neue Objekte zu erkennen, ohne dass sie dafür Trainingsdaten benötigen.

Wie man die Hugging Face Modelle verwendet

Pavel legte dann den Schwerpunkt auf die praktische Arbeit mit den Hugging Face und erläuterte drei Möglichkeiten, wie Entwickler sie nutzen können: Modelle erkunden, schnell testen und sie weiter anpassen.

Er demonstrierte, wie Entwickler die Modelle direkt im Hugging Face Hub durchsuchen können, ohne Code zu schreiben, so dass es einfach ist, Modelle sofort über eine interaktive Schnittstelle zu testen. "Du kannst es ausprobieren, ohne auch nur eine Zeile Code zu schreiben oder das Modell auf deinen Computer herunterzuladen", fügte Pavel hinzu. Da einige Modelle sehr groß sind, hilft der Hub, Speicher- und Verarbeitungsbeschränkungen zu vermeiden.

Abb. 2. Wie man Hugging Face Modelle verwendet.

‍

Außerdem können Entwickler mit der Hugging Face Inference API KI-Modelle mit einfachen API-Aufrufen ausführen. Sie eignet sich hervorragend für schnelle Tests, Proof-of-Concept-Projekte und Rapid Prototyping, ohne dass ein komplexes Setup erforderlich ist.

Für fortgeschrittene Anwendungsfälle können Entwickler das Hugging Face Transformers-Framework nutzen, ein Open-Source-Tool, das vortrainierte Modelle für Text-, Bild- und Audioaufgaben bietet und sowohl PyTorch als auch TensorFlow unterstützt. Pavel erklärte, dass Entwickler/innen mit nur zwei Zeilen Code ein Modell aus dem Hugging Face Hub abrufen und es mit einem Vorverarbeitungstool, wie z. B. einem Bildprozessor, verknüpfen können, um Bilddaten für Vision AI-Anwendungen zu analysieren.

Optimierung von KI-Workflows mit Hugging Face

Als Nächstes erklärte Pavel, wie Hugging Face KI-Workflows rationalisieren kann. Ein wichtiges Thema war die Optimierung des Aufmerksamkeitsmechanismus in Transformers, einer Kernfunktion von Deep-Learning-Modellen, die ihnen hilft, sich auf die wichtigsten Teile der Eingabedaten zu konzentrieren. Dies verbessert die Genauigkeit von Aufgaben wie Sprachverarbeitung und Computer Vision. Allerdings kann dies ressourcenintensiv sein.

Die Optimierung des Aufmerksamkeitsmechanismus kann den Speicherverbrauch erheblich reduzieren und gleichzeitig die Geschwindigkeit erhöhen. Pavel erklärt: "Wenn du zum Beispiel zu einer effizienteren Aufmerksamkeitsimplementierung wechselst, kannst du eine bis zu 1,8-mal schnellere Leistung erzielen."

Hugging Face bietet integrierte Unterstützung für effizientere Aufmerksamkeitsimplementierungen innerhalb des Transformers-Frameworks. Entwickler können diese Optimierungen aktivieren, indem sie beim Laden eines Modells einfach eine alternative Aufmerksamkeitsimplementierung angeben.

Optimum und Torch kompilieren

Er sprach auch über die Quantisierung, eine Technik, die KI-Modelle kleiner macht, indem sie die Genauigkeit der verwendeten Zahlen reduziert, ohne die Leistung zu sehr zu beeinträchtigen. Dadurch benötigen die Modelle weniger Speicherplatz und laufen schneller, was sie für Geräte mit begrenzter Rechenleistung, wie Smartphones und eingebettete Systeme, besser geeignet macht.

Um die Effizienz weiter zu steigern, hat Pavel die Hugging Face Optimum-Bibliothek eingeführt, eine Reihe von Tools zur Optimierung und Bereitstellung von Modellen. Mit nur wenigen Zeilen Code können Entwickler/innen Quantisierungstechniken anwenden und Modelle in effiziente Formate wie ONNX (Open Neural Network Exchange) konvertieren, sodass sie problemlos auf verschiedenen Hardwaretypen, einschließlich Cloud-Servern und Edge-Geräten, laufen können.

Abb. 3. Pavel sprach über die Optimum-Bibliothek und ihre Funktionen.

‍

Schließlich erwähnte Pavel noch die Vorteile von Torch Compile, einer Funktion in PyTorch , die die Verarbeitung von Daten durch KI-Modelle optimiert, sodass sie schneller und effizienter laufen. Hugging Face integriert Torch Compile in seine Transformers- und Optimum-Bibliotheken, sodass Entwickler diese Leistungsverbesserungen mit minimalen Codeänderungen nutzen können.

Durch die Optimierung der Berechnungsstruktur des Modells kann Torch Compile die Inferenzzeiten beschleunigen und die Bildrate von 29 auf 150 Bilder pro Sekunde erhöhen, ohne die Genauigkeit oder Qualität zu beeinträchtigen.

Einsatz von Modellen mit Hugging Face Tools

Anschließend ging Pavel kurz darauf ein, wie Entwickler/innen Vision AI-Modelle mit den Hugging Face erweitern und einsetzen können, nachdem sie das richtige Modell ausgewählt und den besten Ansatz für die Entwicklung gewählt haben.

So können Entwickler/innen mit Gradio und Streamlit interaktive KI-Anwendungen entwickeln. Gradio ermöglicht es Entwicklern, webbasierte Schnittstellen für Machine-Learning-Modelle zu erstellen, während Streamlit hilft, interaktive Datenanwendungen mit einfachen Python zu erstellen.

Pavel betonte auch: "Du musst nicht alles von Grund auf neu schreiben", und verwies auf die Leitfäden, Schulungshefte und Beispielskripte, die Hugging Face bereitstellt. Diese Ressourcen helfen Entwicklern, schnell loszulegen, ohne dass sie alles von Grund auf neu entwickeln müssen.

Abb. 4. Pavel bei der Diskussion über die Möglichkeiten von Hugging Face bei YV24.

‍

Vorteile von Hugging Face Hub

Zum Abschluss seiner Keynote fasste Pavel die Vorteile der Nutzung von Hugging Face Hub zusammen. Er betonte, wie es die Modellverwaltung und die Zusammenarbeit vereinfacht. Er wies auch auf die Verfügbarkeit von Leitfäden, Notizbüchern und Tutorials hin, die sowohl Anfängern als auch Experten helfen können, KI-Modelle zu verstehen und umzusetzen.

"Es gibt bereits viele coole Räume auf dem Hub. Du kannst ähnliche Spaces finden, den gemeinsamen Code klonen, ein paar Zeilen ändern, das Modell durch dein eigenes ersetzen und es zurückschicken", erklärt er und ermutigt Entwickler, die Flexibilität der Plattform zu nutzen.

Die wichtigsten Erkenntnisse

In seinem Vortrag bei YV24 erzählte Pavel, wie Hugging Face Tools anbietet, die das Training, die Optimierung und den Einsatz von KI-Modellen unterstützen. Innovationen wie Transformers, Optimum und Torch Compile helfen Entwicklern, die Leistung ihrer Modelle zu verbessern.

Da KI-Modelle immer effizienter werden, machen es Fortschritte bei der Quantisierung und dem Edge Deployment einfacher, sie auf ressourcenbeschränkten Geräten auszuführen. Diese Verbesserungen in Kombination mit Tools wie Hugging Face und fortschrittlichen Computer-Vision-Modellen wie Ultralytics YOLO11 sind der Schlüssel zum Aufbau skalierbarer, leistungsstarker Vision-KI-Anwendungen.

Werde Teil unserer wachsenden Community! Erkunde unser GitHub-Repository, um mehr über KI zu erfahren, und sieh dir unsere yolo an, um deine Vision-KI-Projekte zu starten. Interessierst du dich für Innovationen wie Computer Vision im Gesundheitswesen oder Computer Vision in der Landwirtschaft? Besuche unsere Lösungsseiten, um mehr zu erfahren!

Lebenslaufprojekte mit den Open-Source-Tools von Hugging Face vorantreiben

Hugging Face Hub unterstützt schnellere KI-Entwicklung

Erforschung von Hugging Face Modellen für Computer Vision Anwendungen

Hugging Face für die Objekterkennung

Wie man die Hugging Face Modelle verwendet

Optimierung von KI-Workflows mit Hugging Face

Optimum und Torch kompilieren

Einsatz von Modellen mit Hugging Face Tools

Vorteile von Hugging Face Hub

Die wichtigsten Erkenntnisse

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Lebenslaufprojekte mit den Open-Source-Tools von Hugging Face vorantreiben

Hugging Face Hub unterstützt schnellere KI-Entwicklung

Erforschung von Hugging Face Modellen für Computer Vision Anwendungen

Hugging Face für die Objekterkennung

Wie man die Hugging Face Modelle verwendet

Optimierung von KI-Workflows mit Hugging Face

Optimum und Torch kompilieren

Einsatz von Modellen mit Hugging Face Tools

Vorteile von Hugging Face Hub

Die wichtigsten Erkenntnisse

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft der KI gestalten!

Lass uns gemeinsam die Zukunft
der KI gestalten!