Glossar

Modell Servieren

Lerne die Grundlagen des Model Serving - setze KI-Modelle für Echtzeitvorhersagen, Skalierbarkeit und nahtlose Integration in Anwendungen ein.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Sobald ein Machine Learning (ML) -Modell trainiert und validiert ist, besteht der nächste wichtige Schritt darin, es für die Erstellung von Vorhersagen auf neuen Daten verfügbar zu machen. Dieser Prozess wird als Model Serving bezeichnet. Dabei wird ein trainiertes Modell in einer Produktionsumgebung eingesetzt, in der Regel hinter einem API-Endpunkt, so dass Anwendungen oder andere Systeme Vorhersagen in Echtzeit anfordern können. Model Serving fungiert als Brücke zwischen dem entwickelten Modell und seiner praktischen Anwendung und verwandelt es von einer statischen Datei in einen aktiven, wertschöpfenden Dienst innerhalb des allgemeinen Lebenszyklus des maschinellen Lernens.

Die Bedeutung des Modeldienstes

Der Modellservice ist für die Operationalisierung von ML-Modellen von grundlegender Bedeutung. Ohne sie können selbst die genauesten Modelle, wie die modernsten Ultralytics YOLO Objektdetektoren, bleiben in Entwicklungsumgebungen isoliert und können sich nicht auf die realen Prozesse auswirken. Effektives Model Serving stellt sicher:

Anwendungen in der realen Welt

Model Serving ermöglicht unzählige KI-gesteuerte Funktionen, mit denen wir täglich interagieren. Hier sind zwei Beispiele:

  1. E-Commerce Produktempfehlungen: Wenn du in einem Online-Shop stöberst, wird das Empfehlungssystem durch ein Modell im Backend gesteuert. Es nimmt deinen Browserverlauf oder dein Nutzerprofil als Input und liefert dir personalisierte Produktvorschläge in Echtzeit.
  2. Unterstützung bei medizinischen Diagnosen: Im Gesundheitswesen können Modelle, die für die medizinische Bildanalyse trainiert wurden, über eine API bereitgestellt werden. Ärzte können Scans von Patienten (z. B. Röntgenbilder oder MRTs) in den Dienst hochladen, der dann potenzielle Anomalien oder diagnostische Erkenntnisse liefert und so die klinische Entscheidungsfindung unterstützt. Plattformen wie Ultralytics HUB erleichtern den Einsatz solcher Spezialmodelle.

Schlüsselkomponenten des Modells Serving

Die Implementierung eines robusten Model-Serving-Systems umfasst mehrere Komponenten:

  • Modellformat: Das trainierte Modell muss in einem Format gespeichert werden, das für den Einsatz geeignet ist, wie z. B. ONNX, TensorFlow SavedModel, oder optimierte Formate wie TensorRT.
  • Serving Framework: Software wie TensorFlow Serving, TorchServe oder NVIDIA Triton Inference Server verwaltet den Lebenszyklus des Modells, bearbeitet Anfragen und führt Inferenzen durch.
  • API-Endpunkt: Eine Schnittstelle (die oft von einem API-Gateway verwaltet wird) macht die Vorhersagefunktionen des Modells für Client-Anwendungen zugänglich.
  • Infrastruktur: Die zugrundeliegende Hardware- und Softwareumgebung, bei der es sich um Server vor Ort, Cloud Computing-Instanzen oder sogar spezielle Edge-Computing-Geräte handeln kann.
  • Überwachung: Tools und Prozesse für die Modellüberwachung verfolgen Leistung, Latenz, Fehler und potenzielle Datenabweichungen, um sicherzustellen, dass das bediente Modell im Laufe der Zeit effektiv bleibt.

Model Deployment vs. Model Serving

Die Begriffe Model Deployment und Model Serving sind zwar oft miteinander verbunden, aber nicht identisch. Modellbereitstellung ist das umfassendere Konzept der Bereitstellung eines trainierten Modells zur Nutzung. Dies kann verschiedene Strategien umfassen, z. B. die direkte Einbettung von Modellen in Anwendungen, die Bereitstellung auf Edge-Geräten für Offline-Inferenzen oder die Einrichtung von Stapelverarbeitungspipelines, die Vorhersagen in regelmäßigen Abständen ausführen. Je nach deinen Bedürfnissen kannst du verschiedene Optionen für die Modellbereitstellung ausprobieren.

Model Serving bezieht sich auf die Bereitstellung eines Modells als Netzwerkdienst, der in der Regel über eine API zugänglich ist und für die Bearbeitung von Vorhersageanfragen nach Bedarf, oft in Echtzeit, konzipiert ist. Es handelt sich dabei um eine spezielle Art der Modellbereitstellung, die sich auf die Bereitstellung kontinuierlicher Schlussfolgerungen konzentriert und dabei auf Skalierbarkeit und geringe Latenzzeiten achtet. Für viele interaktive Anwendungen, die sofortige Vorhersagen erfordern, ist Model Serving die bevorzugte Einsatzmethode.

Alles lesen