Optimiere Deep-Learning-Modelle mit TensorRT für schnellere, effiziente Inferenzen auf NVIDIA GPUs. Erreiche Echtzeitleistung mit YOLO und KI-Anwendungen.
TensorRT ist ein hochleistungsfähiger Deep Learning (DL) Inferenzoptimierer und eine Laufzeitbibliothek, die von NVIDIA. Sie wurde speziell entwickelt, um den Inferenzdurchsatz zu maximieren und die Inferenzlatenz für Deep Learning-Anwendungen auf NVIDIA zu minimieren. TensorRT nimmt trainierte neuronale Netzwerkmodelle aus verschiedenen Frameworks und wendet zahlreiche Optimierungen an, um eine hoch optimierte Laufzeit-Engine für den Einsatz zu erzeugen. Dieser Prozess ist entscheidend für den effizienten Einsatz von Modellen in Produktionsumgebungen, insbesondere wenn Geschwindigkeit und Reaktionsfähigkeit entscheidend sind.
TensorRT erreicht durch mehrere ausgeklügelte Techniken erhebliche Leistungssteigerungen:
Der Arbeitsablauf umfasst in der Regel die Übernahme eines trainierten Modells (z. B. aus PyTorch oder TensorFlow, oft über ein Zwischenformat wie ONNX) und füttert es mit dem TensorRT . TensorRT analysiert das Modell, führt Graph-Optimierungen und zielspezifische Optimierungen auf der Grundlage der angegebenen Präzision und GPU durch und erzeugt schließlich einen optimierten Inferenzplan, der als TensorRT bezeichnet wird. Diese Engine-Datei kann dann für eine schnelle Inferenz eingesetzt werden.
TensorRT ist für die Phase der Modellbereitstellung im Lebenszyklus des maschinellen Lernens von großer Bedeutung. Seine Fähigkeit, die Inferenz erheblich zu beschleunigen, macht es unverzichtbar für Anwendungen, die Inferenz in Echtzeit erfordern, wie z.B. die Objekterkennung mit Modellen wie Ultralytics YOLO, die Bildsegmentierung und die Verarbeitung natürlicher Sprache. Sie ist eine Schlüsselkomponente im NVIDIA Software Stack, neben Tools wie CUDAund ermöglicht es Entwicklern, das volle Potenzial der NVIDIA zu nutzen, von leistungsstarken Rechenzentrums-GPUs bis hin zu energieeffizienten NVIDIA Jetson-Modulen für Edge AI. Ultralytics bietet eine nahtlose Integration, die es den Nutzern ermöglicht, YOLO in das TensorRT zu exportieren, um sie optimal einzusetzen, was häufig mit Plattformen wie dem Triton Inference Server geschieht.
TensorRT wird in vielen Branchen eingesetzt, in denen schnelle und effiziente KI-Inferenzen benötigt werden:
Während sich TensorRT auf die Optimierung von Inferenzen speziell für NVIDIA konzentriert, gibt es auch andere Tools im Ökosystem:
Das Hauptunterscheidungsmerkmal von TensorRT ist die tiefe Integration mit NVIDIA und die aggressiven, auf GPUs zugeschnittenen Optimierungsstrategien, die auf NVIDIA im Vergleich zu allgemeineren Runtimes oft die höchste Leistung erbringen (siehe MLPerf Benchmarks). Mit Plattformen wie Ultralytics HUB kann die Verwaltung von Modellen und Einsätzen vereinfacht werden.