Entdecken Sie die Leistungsfähigkeit von Echtzeit-Inferenz für sofortige KI-Vorhersagen. Erfahren Sie, wie Ultralytics Ergebnisse mit geringer Latenz für Edge-Geräte und Robotik liefert.
Echtzeit-Inferenz bezeichnet den Prozess, bei dem ein trainiertes Machine-Learning-Modell (ML) Live-Eingabedaten akzeptiert und nahezu augenblicklich Vorhersagen generiert. Im Gegensatz zur Offline-Verarbeitung, bei der Daten gesammelt und zu einem späteren Zeitpunkt in großen Mengen analysiert werden, erfolgt die Echtzeit-Inferenz spontan, sodass Systeme schnell und agil auf ihre Umgebung reagieren können . Diese Fähigkeit ist das Herzstück moderner Künstlicher Intelligenz (KI) Anwendungen und ermöglicht es Geräten, Daten innerhalb von Millisekunden wahrzunehmen, zu interpretieren und darauf zu reagieren.
Die wichtigste Kennzahl zur Bewertung der Echtzeitleistung ist die Inferenzlatenz. Diese misst die Zeitverzögerung zwischen dem Zeitpunkt, zu dem Daten in das Modell eingegeben werden – beispielsweise ein Bild einer Videokamera – und dem Zeitpunkt, zu dem das Modell eine Ausgabe erzeugt, beispielsweise eine Begrenzungsbox oder ein Klassifizierungslabel. Damit eine Anwendung als „Echtzeitanwendung“ gilt, muss die Latenz so gering sein, dass sie mit der Geschwindigkeit des eingehenden Datenstroms mithalten kann.
Bei Video-Verstehensaufgaben mit 30 Bildern pro Sekunde (FPS) hat das System beispielsweise ein striktes Zeitbudget von etwa 33 Millisekunden für die Verarbeitung jedes einzelnen Bildes. Dauert die Inferenz länger, kommt es zu Verzögerungen im System, die möglicherweise zu Bildausfällen oder verzögerten Reaktionen führen. Um dies zu erreichen, ist häufig eine Hardwarebeschleunigung mithilfe von GPUs oder speziellen Edge-AI-Geräten wie dem NVIDIA erforderlich.
Es ist hilfreich, Echtzeit-Workflows von der Batch-Verarbeitung zu unterscheiden. Zwar werden bei beiden Vorhersagen generiert , doch unterscheiden sich ihre Ziele und Architekturen erheblich:
Die Fähigkeit, Entscheidungen in Sekundenbruchteilen zu treffen, hat verschiedene Branchen durch die Automatisierung in dynamischen Umgebungen
Die Bereitstellung von Modellen für Echtzeitanwendungen erfordert häufig eine Optimierung, um sicherzustellen, dass sie auf der Zielhardware effizient laufen . Techniken wie die Modellquantisierung reduzieren die Genauigkeit der Modellgewichte (z. B. von float32 auf int8), um den Speicherbedarf zu verringern und die Inferenzgeschwindigkeit zu erhöhen, wobei die Auswirkungen auf die Genauigkeit minimal sind.
Entwickler können die Ultralytics nutzen, um diesen Prozess zu optimieren . Die Plattform vereinfacht das Training und ermöglicht es Benutzern, Modelle in optimierte Formate wie TensorRT für NVIDIA , OpenVINO für Intel oder TFLite für den mobilen Einsatz.
Der folgende Python zeigt, wie man Echtzeit-Inferenz auf einem Webcam-Feed mit dem
ultralytics Bibliothek. Sie verwendet die YOLO26 Nano
Modell, das speziell für Hochgeschwindigkeitsleistung auf Edge-Geräten entwickelt wurde.
from ultralytics import YOLO
# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")
# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)
# Iterate through the generator to process frames as they arrive
for result in results:
# Example: Print the number of objects detected in the current frame
print(f"Detected {len(result.boxes)} objects")