Glossar

Inferenz in Echtzeit

Entdecke, wie Echtzeit-Inferenz mit Ultralytics YOLO sofortige Vorhersagen für KI-Anwendungen wie autonomes Fahren und Sicherheitssysteme ermöglicht.

Echtzeit-Inferenz bezieht sich auf den Prozess, bei dem ein trainiertes Modell für maschinelles Lernen (ML) sofort Vorhersagen oder Entscheidungen trifft, sobald neue Daten eintreffen. Im Gegensatz zur Batch-Inferenz, bei der Daten in Gruppen verarbeitet werden, die im Laufe der Zeit gesammelt werden, legt die Echtzeit-Inferenz den Schwerpunkt auf geringe Latenzzeiten und sofortige Reaktionen. Diese Fähigkeit ist wichtig für Anwendungen, die sofortige Rückmeldungen oder Maßnahmen auf der Grundlage von Live-Datenströmen erfordern, damit Systeme dynamisch auf sich ändernde Bedingungen reagieren können, was den Prinzipien des Echtzeit-Computings entspricht.

Verstehen der Echtzeit-Inferenz

In der Praxis bedeutet Echtzeit-Inferenz, dass ein ML-Modell, wie z. B. ein Ultralytics YOLO Modell für Computer Vision (CV), so einzusetzen, dass es einzelne Dateneingaben (z. B. Videobilder oder Sensormesswerte) analysieren und mit minimaler Verzögerung Ergebnisse liefern kann. Die wichtigste Leistungskennzahl ist die Inferenzlatenz, d. h. die Zeit, die vom Erhalt einer Eingabe bis zur Erstellung einer Vorhersage vergeht. Um eine niedrige Latenzzeit zu erreichen, sind oft mehrere Strategien erforderlich, darunter die Optimierung des Modells selbst und der Einsatz spezieller Hard- und Software.

Inferenz in Echtzeit vs. Batch-Inferenz

Der Hauptunterschied liegt in der Art der Datenverarbeitung und den damit verbundenen Latenzanforderungen:

Inferenz in Echtzeit: Verarbeitet die Daten Punkt für Punkt, sobald sie eintreffen, und konzentriert sich darauf, die Verzögerung für jede Vorhersage zu minimieren. Unverzichtbar für interaktive Systeme oder Anwendungen, die sofortige Reaktionen erfordern. Denk an die Erkennung eines Hindernisses für ein selbstfahrendes Auto.
Batch Inference: Verarbeitet Daten in großen Stücken oder Stapeln, oft in regelmäßigen Abständen. Optimiert für den Durchsatz (effiziente Verarbeitung großer Datenmengen) und nicht für die Latenzzeit. Geeignet für Aufgaben wie die Erstellung täglicher Berichte oder die Offline-Analyse großer Datensätze. Google Cloud bietet Einblicke in die Batch-Vorhersage.

Anwendungen der Echtzeit-Inferenz

Echtzeit-Inferenz ist die Grundlage für viele moderne Anwendungen der Künstlichen Intelligenz (KI), bei denen eine sofortige Entscheidungsfindung wichtig ist:

Autonome Systeme: In der KI für selbstfahrende Autos und in der Robotik sind Echtzeit-Inferenzen entscheidend für die Navigation in der Umgebung, die Erkennung von Hindernissen(Objekterkennung) und das Treffen von Fahrentscheidungen in Sekundenbruchteilen.
Sicherheit und Bewachung: Sicherheitssysteme nutzen Echtzeit-Inferenzverfahren, um Eindringlinge zu erkennen, verdächtige Aktivitäten zu identifizieren oder Menschenmengen sofort zu überwachen.
Gesundheitswesen: Die sofortige Analyse medizinischer Bilder während eines Eingriffs oder einer Diagnose kann die Ergebnisse für die Patienten und die Genauigkeit der Diagnose erheblich verbessern.
Fertigung: Die Echtzeit-Qualitätskontrolle in der Fertigung ermöglicht die sofortige Erkennung von Fehlern in der Produktionslinie, wodurch Verschwendung reduziert und die Effizienz verbessert wird.
Interaktive Anwendungen: Virtuelle Assistenten, Echtzeit-Sprachübersetzung und Empfehlungssysteme für Inhalte sind auf Inferenzen mit geringer Latenz angewiesen, um nahtlose Benutzererfahrungen zu ermöglichen.

Leistung in Echtzeit erreichen

Damit Modelle für Echtzeitanwendungen schnell genug laufen, müssen sie oft erheblich optimiert werden:

Modell-Optimierung: Techniken wie die Modellquantisierung (Verringerung der Genauigkeit der Modellgewichte) und das Modellpruning (Entfernen überflüssiger Teile des Modells) verringern die Rechenlast und den Speicherbedarf.
Hardware-Beschleunigung: Der Einsatz von Spezialhardware wie GPUs, TPUs (Tensor Processing Units) oder speziellen KI-Beschleunigern auf Edge-Geräten (z. B. NVIDIA Jetson, Google Coral Edge TPU) kann die Berechnungen drastisch beschleunigen. Edge Computing selbst ist entscheidend für die lokale Verarbeitung von Daten mit minimaler Verzögerung.
Effiziente Inferenz-Engines: Software-Bibliotheken und Laufzeiten wie TensorRT, OpenVINO, ONNX Runtime, und Frameworks wie PyTorch oder TensorFlow bieten optimierte Ausführungspfade für trainierte Modelle. Eine Inferenz-Engine wurde speziell dafür entwickelt, Modelle für Vorhersagen effizient auszuführen.

Modelle wie Ultralytics YOLO11 wurden im Hinblick auf Effizienz und Genauigkeit entwickelt und eignen sich daher gut für die Objekterkennung in Echtzeit. Plattformen wie Ultralytics HUB bieten Tools zum Trainieren, Optimieren (z. B. Export nach ONNX oder TensorRT ) und den Einsatz von Modellen und erleichtern so die Implementierung von Echtzeit-Inferenzlösungen für verschiedene Einsatzoptionen.

Inferenz in Echtzeit

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Flexible Unternehmenslizenzierungslösung für deine Innovation

Trainiere KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainiere YOLO Modelle einfach mit Ultralytics HUB

Verstehen der Echtzeit-Inferenz

Inferenz in Echtzeit vs. Batch-Inferenz

Anwendungen der Echtzeit-Inferenz

Leistung in Echtzeit erreichen

Mehr Blogs lesen

Werde Mitglied der Ultralytics Community

Inferenz in Echtzeit

Trainiere YOLO Modelle einfachmit Ultralytics HUB

Flexible Unternehmenslizenzierungslösung für deine Innovation

Trainiere KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainiere YOLO Modelle einfach mit Ultralytics HUB

Verstehen der Echtzeit-Inferenz

Inferenz in Echtzeit vs. Batch-Inferenz

Anwendungen der Echtzeit-Inferenz

Leistung in Echtzeit erreichen

Mehr Blogs lesen

Werde Mitglied der Ultralytics Community

Trainiere YOLO Modelle einfach
mit Ultralytics HUB