Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Echtzeit-Inferenz

Entdecken Sie die Leistungsfähigkeit von Echtzeit-Inferenz für sofortige KI-Vorhersagen. Erfahren Sie, wie Ultralytics Ergebnisse mit geringer Latenz für Edge-Geräte und Robotik liefert.

Echtzeit-Inferenz bezeichnet den Prozess, bei dem ein trainiertes Machine-Learning-Modell (ML) Live-Eingabedaten akzeptiert und nahezu augenblicklich Vorhersagen generiert. Im Gegensatz zur Offline-Verarbeitung, bei der Daten gesammelt und zu einem späteren Zeitpunkt in großen Mengen analysiert werden, erfolgt die Echtzeit-Inferenz spontan, sodass Systeme schnell und agil auf ihre Umgebung reagieren können . Diese Fähigkeit ist das Herzstück moderner Künstlicher Intelligenz (KI) Anwendungen und ermöglicht es Geräten, Daten innerhalb von Millisekunden wahrzunehmen, zu interpretieren und darauf zu reagieren.

Die Bedeutung einer niedrigen Latenzzeit

Die wichtigste Kennzahl zur Bewertung der Echtzeitleistung ist die Inferenzlatenz. Diese misst die Zeitverzögerung zwischen dem Zeitpunkt, zu dem Daten in das Modell eingegeben werden – beispielsweise ein Bild einer Videokamera – und dem Zeitpunkt, zu dem das Modell eine Ausgabe erzeugt, beispielsweise eine Begrenzungsbox oder ein Klassifizierungslabel. Damit eine Anwendung als „Echtzeitanwendung“ gilt, muss die Latenz so gering sein, dass sie mit der Geschwindigkeit des eingehenden Datenstroms mithalten kann.

Bei Video-Verstehensaufgaben mit 30 Bildern pro Sekunde (FPS) hat das System beispielsweise ein striktes Zeitbudget von etwa 33 Millisekunden für die Verarbeitung jedes einzelnen Bildes. Dauert die Inferenz länger, kommt es zu Verzögerungen im System, die möglicherweise zu Bildausfällen oder verzögerten Reaktionen führen. Um dies zu erreichen, ist häufig eine Hardwarebeschleunigung mithilfe von GPUs oder speziellen Edge-AI-Geräten wie dem NVIDIA erforderlich.

Echtzeit-Inferenz vs. Batch-Inferenz

Es ist hilfreich, Echtzeit-Workflows von der Batch-Verarbeitung zu unterscheiden. Zwar werden bei beiden Vorhersagen generiert , doch unterscheiden sich ihre Ziele und Architekturen erheblich:

  • Echtzeit-Inferenz: Priorisiert niedrige Latenz. Sie verarbeitet einzelne Datenpunkte (oder sehr kleine Batches), sobald sie eintreffen. Dies ist für interaktive Anwendungen wie autonome Fahrzeuge unerlässlich, bei denen ein Auto detect sofort detect , um rechtzeitig bremsen zu können.
  • Batch-Inferenz: Priorisiert hohen Durchsatz. Dabei werden große Datenmengen gesammelt und auf einmal verarbeitet. Dies eignet sich für nicht dringende Aufgaben, wie die Erstellung von nächtlichen Bestandsberichten oder die Analyse historischer Big-Data-Trends.

Anwendungsfälle in der Praxis

Die Fähigkeit, Entscheidungen in Sekundenbruchteilen zu treffen, hat verschiedene Branchen durch die Automatisierung in dynamischen Umgebungen

  • Intelligente Fertigung: Bei der KI in der Fertigung verwenden Kameras, die über Förderbändern positioniert sind, Echtzeit-Inferenz, um eine automatisierte Qualitätskontrolle durchzuführen. Ein Objekterkennungsmodell kann sofort Fehler oder Fremdkörper in Produkten identifizieren, die sich mit hoher Geschwindigkeit bewegen. Wenn eine Anomalie erkannt wird, löst das System einen Roboterarm aus, um den Artikel sofort zu entfernen, sodass nur hochwertige Waren die Verpackung erreichen.
  • Überwachung und Sicherheit: Moderne Sicherheitssysteme nutzen Computer Vision zur Überwachung von Perimetern. Anstatt nur Aufnahmen zu machen, führen diese Kameras eine Echtzeit-Personenerkennung oder Gesichtserkennung durch, um das Sicherheitspersonal bei unbefugtem Zutritt sofort zu alarmieren.
  • Robotik: Im Bereich der KI in der Robotik nutzen Roboter die Posen-Schätzung, um sich in komplexen physischen Räumen zu bewegen. Ein Lagerroboter muss kontinuierlich die Position von Hindernissen und menschlichen Mitarbeitern ermitteln, um seinen Weg sicher und effizient zu planen.

Optimierung und Bereitstellung

Die Bereitstellung von Modellen für Echtzeitanwendungen erfordert häufig eine Optimierung, um sicherzustellen, dass sie auf der Zielhardware effizient laufen . Techniken wie die Modellquantisierung reduzieren die Genauigkeit der Modellgewichte (z. B. von float32 auf int8), um den Speicherbedarf zu verringern und die Inferenzgeschwindigkeit zu erhöhen, wobei die Auswirkungen auf die Genauigkeit minimal sind.

Entwickler können die Ultralytics nutzen, um diesen Prozess zu optimieren . Die Plattform vereinfacht das Training und ermöglicht es Benutzern, Modelle in optimierte Formate wie TensorRT für NVIDIA , OpenVINO für Intel oder TFLite für den mobilen Einsatz.

Code-Beispiel

Der folgende Python zeigt, wie man Echtzeit-Inferenz auf einem Webcam-Feed mit dem ultralytics Bibliothek. Sie verwendet die YOLO26 Nano Modell, das speziell für Hochgeschwindigkeitsleistung auf Edge-Geräten entwickelt wurde.

from ultralytics import YOLO

# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")

# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)

# Iterate through the generator to process frames as they arrive
for result in results:
    # Example: Print the number of objects detected in the current frame
    print(f"Detected {len(result.boxes)} objects")

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten