Glossar

Modell Servieren

Lerne die Grundlagen des Model Serving - setze KI-Modelle für Echtzeitvorhersagen, Skalierbarkeit und nahtlose Integration in Anwendungen ein.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Im Bereich der künstlichen Intelligenz und des maschinellen Lernens ist die Reise eines einmal trainierten Modells noch lange nicht zu Ende. Um diese Modelle praktisch nutzbar zu machen, müssen sie für Vorhersagen auf neuen, ungesehenen Daten zugänglich sein. An dieser Stelle kommt das Model Serving ins Spiel. Beim Model Serving wird ein trainiertes maschinelles Lernmodell in einer Produktionsumgebung eingesetzt, in der Anwendungen oder Systeme auf es zugreifen können, um Schlussfolgerungen zu ziehen. Es überbrückt die Lücke zwischen der Modellentwicklung und der realen Anwendung und ermöglicht es Unternehmen und Nutzern, die Leistungsfähigkeit von KI-Modellen zu nutzen.

Die Bedeutung des Modelldienstes

Model Serving ist von entscheidender Bedeutung, weil es ein statisches, trainiertes Modell in einen dynamischen, operativen Dienst verwandelt. Ohne Model-Serving würden Machine-Learning-Modelle auf Entwicklungsumgebungen beschränkt bleiben und könnten in der realen Welt keinen Nutzen bringen. Effizientes Model Serving gewährleistet:

  • Vorhersagen in Echtzeit: Ermöglicht es Anwendungen, sofortige Vorhersagen zu treffen, was für zeitkritische Aufgaben wie Betrugserkennung oder autonomes Fahren unerlässlich ist. Echtzeit-Vorhersagen sind für viele moderne KI-Anwendungen unerlässlich.
  • Skalierbarkeit und Verlässlichkeit: Produktionsumgebungen erfordern Skalierbarkeit, um schwankende Lasten zu bewältigen, und Zuverlässigkeit, um einen kontinuierlichen Betrieb zu gewährleisten. Die Model Serving-Infrastruktur ist so konzipiert, dass sie diese Anforderungen erfüllt, indem sie Ressourcen nach Bedarf skaliert und eine hohe Verfügbarkeit gewährleistet.
  • Zugänglichkeit und Integration: Bietet einen standardisierten Weg, um über APIs auf Modelle zuzugreifen, was die Integration von KI-Funktionen in verschiedene Anwendungen, von Webservices bis hin zu mobilen Apps, erleichtert. Dies erleichtert die Einbindung von Computer Vision oder Natural Language Processing (NLP) in breitere Systeme.
  • Modellmanagement und Versionierung: Erleichtert die Verwaltung verschiedener Modellversionen und ermöglicht nahtlose Aktualisierungen und Rollbacks. Dies ist wichtig, um die Modellgenauigkeit zu erhalten und sich an die sich verändernden Daten anzupassen. Ultralytics HUB bietet Werkzeuge für ein effizientes Modellmanagement.

Anwendungen in der realen Welt

Model Serving unterstützt eine Vielzahl von KI-Anwendungen in verschiedenen Branchen. Hier sind ein paar konkrete Beispiele:

  • E-Commerce Produktempfehlungen: E-Commerce-Plattformen nutzen Model Serving, um personalisierte Produktempfehlungen in Echtzeit bereitzustellen. Ein trainiertes Empfehlungssystemmodell wird über eine API bereitgestellt. Wenn ein Nutzer auf der Website surft, sendet die Anwendung die Nutzerdaten an den Model-Serving-Endpunkt, der dann die vorhergesagten Produktempfehlungen an den Nutzer zurückgibt und so das Kundenerlebnis verbessert und den Umsatz steigert.
  • Medizinische Bildanalyse für die Diagnostik: Im Gesundheitswesen werden medizinische Bildanalysemodelle, z. B. für die Tumorerkennung, zur Unterstützung von Radiologen eingesetzt. Wenn ein neues medizinisches Bild (z. B. ein Röntgen- oder MRT-Bild) aufgenommen wird, wird es an das Modellsystem gesendet. Das Modell führt Schlussfolgerungen durch und liefert diagnostische Erkenntnisse, wie z. B. die Hervorhebung potenzieller Anomalien, was zu schnelleren und genaueren Diagnosen führt.

Schlüsselkomponenten des Modells Serving

Eine typische Model-Serving-Architektur umfasst mehrere Schlüsselkomponenten, die zusammenarbeiten:

  • Trainiertes Modell: Die Kernkomponente ist das trainierte maschinelle Lernmodell selbst, das oft in Formaten wie ONNX oder TensorFlow SavedModel für einen effizienten Einsatz gespeichert wird. Ultralytics YOLO Modelle können für einen flexiblen Einsatz in verschiedene Formate exportiert werden, darunter TensorRT und OpenVINO.
  • Serving Infrastructure: Dazu gehört die Hardware- und Softwareumgebung, in der das Modell läuft. Das können Cloud-basierte Plattformen wie Amazon SageMaker oder Google Cloud AI Platform sein, aber auch Server vor Ort. Wegen ihrer Skalierbarkeit und Kosteneffizienz werden auch Serverless-Computing-Optionen immer beliebter.
  • API-Server: Ein API-Server (Application Programming Interface) fungiert als Schnittstelle zwischen den Anwendungen und dem verwendeten Modell. Er nimmt Vorhersageanfragen entgegen, sendet sie zur Inferenz an das Modell und gibt die Vorhersagen zurück. Gängige API-Frameworks sind REST und gRPC.
  • Load Balancer: Um ein hohes Verkehrsaufkommen zu bewältigen und die Skalierbarkeit zu gewährleisten, verteilt ein Load Balancer eingehende Anfragen auf mehrere Instanzen der Serving-Infrastruktur, um eine Überlastung zu verhindern und die Leistung zu erhalten.
  • Überwachung und Protokollierung: Robuste Überwachungs- und Protokollierungssysteme sind unerlässlich, um die Leistung des Modells zu verfolgen, Probleme zu erkennen und die Zuverlässigkeit des Serving-Systems im Laufe der Zeit sicherzustellen. Dazu gehört auch die Überwachung der Latenzzeiten, des Durchsatzes und der Fehlerquoten und ist Teil der Modellüberwachung.

Model Deployment vs. Model Serving

Obwohl sie oft synonym verwendet werden, haben die Begriffe Modellbereitstellung und Modellservice unterschiedliche Bedeutungen. Die Modellbereitstellung ist der umfassendere Prozess der Bereitstellung eines Modells für die Nutzung, der verschiedene Methoden über die Bereitstellung über eine API hinaus umfassen kann. Die Möglichkeiten der Modellbereitstellung reichen von der direkten Einbettung von Modellen in Anwendungen über die Bereitstellung auf Edge-Geräten bis hin zur Einrichtung von Batch-Inferenz-Pipelines.

Der Begriff "Model Serving" bezieht sich auf die Einrichtung eines speziellen, skalierbaren und zugänglichen Dienstes für Echtzeit-Inferenzen, in der Regel über eine API. Es handelt sich dabei um eine spezielle Art der Bereitstellung, die auf kontinuierliche, bedarfsgerechte Vorhersagefunktionen ausgerichtet ist. Die Wahl der Bereitstellungsmethode hängt von den Anforderungen der Anwendung ab, z. B. von der benötigten Latenzzeit, der Skalierbarkeit und der Komplexität der Integration. Für Anwendungen, die sofortige Vorhersagen und eine nahtlose Integration in verschiedene Systeme erfordern, ist Model Serving der ideale Ansatz.

Alles lesen