Glossar

TensorRT

Optimiere Deep-Learning-Modelle mit TensorRT für schnellere, effiziente Inferenzen auf NVIDIA GPUs. Erreiche Echtzeitleistung mit YOLO und KI-Anwendungen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

TensorRT ist eine leistungsstarke Deep Learning Inferenz-Optimierungs- und Laufzeitbibliothek, die von NVIDIA. Sie beschleunigt Deep-Learning-Modelle auf NVIDIA Graphics Processing Units (GPUs) durch die Anwendung verschiedener Optimierungstechniken. Das Hauptziel von TensorRT ist es, die geringstmögliche Inferenzlatenz und den höchsten Durchsatz für Modelle zu erreichen, die in Produktionsumgebungen eingesetzt werden, was sie für Echtzeit-Inferenzanwendungen unverzichtbar macht.

Wie TensorRT funktioniert

TensorRT nimmt ein trainiertes neuronales Netzwerk, das oft aus Frameworks wie PyTorch oder TensorFlowexportiert wird, und optimiert es speziell für denGPU. Zu den wichtigsten Optimierungsschritten gehören:

  • Graph-Optimierung: Verschmelzen von Schichten und Eliminieren überflüssiger Operationen, um einen effizienteren Berechnungsgraphen zu erstellen.
  • Präzisionskalibrierung: Verringerung der numerischen Genauigkeit der Modellgewichte (z. B. von FP32 auf FP16 oder INT8) mit minimalen Auswirkungen auf die Genauigkeit, was die Berechnungen erheblich beschleunigt und den Speicherbedarf reduziert.
  • Kernel Auto-Tuning: Auswahl der besten vorimplementierten Algorithmen (Kernel) aus den NVIDIA(cuDNN, cuBLAS) für die spezifischen Modellebenen und die GPU.
  • Dynamischer Tensor : Minimierung des Speicherbedarfs durch Wiederverwendung des für Tensoren zugewiesenen Speichers.

Diese Optimierungen führen zu einer hocheffizienten Laufzeit-Inferenzmaschine, die auf das jeweilige Modell und die Hardware zugeschnitten ist.

Relevanz für Ultralytics

TensorRT ist ein wichtiges Einsatzziel für Ultralytics YOLO . Nutzer können ihre trainierten Ultralytics YOLO in das TensorRT exportieren, um auf NVIDIA , einschließlich Edge-Geräten wie NVIDIA Jetson, erhebliche Geschwindigkeitssteigerungen zu erzielen. Dies ermöglicht Hochleistungsanwendungen in verschiedenen Bereichen. Modellvergleichsseiten wie der RT-DETR zeigen oft die mit der TensorRT erzielten Inferenzgeschwindigkeiten. Ultralytics stellt auch Leitfäden für die Integration mit NVIDIA zur Verfügung, z. B. den Leitfaden DeepStream auf NVIDIA Jetson.

Anwendungen in der realen Welt

TensorRT wird häufig eingesetzt, wenn schnelle und effiziente Inferenzen auf NVIDIA entscheidend sind:

  1. Autonome Fahrzeuge: Selbstfahrende Autos sind auf die Verarbeitung großer Mengen von Sensordaten in Echtzeit angewiesen. TensorRT beschleunigt Modelle zur Objekterkennung, Segmentierung und Pfadplanung und ermöglicht so schnelle Entscheidungen, die für die Sicherheit wichtig sind. Dies ist eine Kernkomponente von KI in Automobillösungen.
  2. Videoanalyse und Smart Cities: Die Verarbeitung mehrerer hochauflösender Videoströme für Aufgaben wie Verkehrsüberwachung, Analyse von Menschenmengen oder Sicherheitsüberwachung erfordert eine immense Rechenleistung. TensorRT optimiert Modelle wie Ultralytics YOLOv8 um diese anspruchsvollen Aufgaben auf Servern oder Edge-Geräten effizient zu bewältigen und KI-Lösungen für Smart Cities zu unterstützen.

TensorRT vs. ähnliche Begriffe

  • ONNX (Open Neural Network Exchange): ONNX ist ein offenes Format für die Darstellung von Deep-Learning-Modellen. Während TensorRT Modelle aus dem ONNX importieren kann, ist ONNX selbst hardwareunabhängig, während TensorRT speziell ein Optimierer und eine Laufzeitumgebung für NVIDIA ist. Ultralytics können nach ONNX exportiert werden.
  • OpenVINO: Ähnlich wie TensorRT ist OpenVINO ein Toolkit zur Inferenzoptimierung, das jedoch von Intel entwickelt wurde und hauptsächlich auf Intel (CPUs, iGPUs, VPUs) ausgerichtet ist. Erfahre mehr über die Ultralytics OpenVINO .
  • PyTorch / TensorFlow: Das sind Deep-Learning-Frameworks, die hauptsächlich zum Trainieren von Modellen verwendet werden. TensorRT optimiert die Modelle , nachdem sie mit diesen Frameworks trainiert wurden, und bereitet sie für den effizienten Einsatz der Modelle vor.
Alles lesen