Entdecken Sie, wie TensorRT Deep-Learning-Modelle für NVIDIA TensorRT . Erfahren Sie, wie Sie Ultralytics TensorRT eine latenzarme, schnelle Inferenz in TensorRT exportieren können.
TensorRT ein von NVIDIA entwickeltes hochleistungsfähiges Software Development Kit (SDK) für Deep-Learning-Inferenz. Es wurde entwickelt, um neuronale Netzmodelle für den Einsatz zu optimieren und bietet eine geringe Inferenzlatenz und einen hohen Durchsatz für Deep-Learning-Anwendungen . Als Optimierungscompiler TensorRT trainierte Netzwerke aus gängigen Frameworks wie PyTorch und TensorFlow strukturiert sie neu, damit sie aufNVIDIA-GPUs effizient ausgeführt werden können. Diese Fähigkeit ist entscheidend für die Ausführung komplexer KI-Modelle in Produktionsumgebungen, in denen Geschwindigkeit und Effizienz von größter Bedeutung sind.
Die Kernfunktion von TensorRT , ein trainiertes neuronales Netzwerk in eine optimierte „Engine” zu konvertieren, die speziell auf die Zielhardware abgestimmt ist. Dies wird durch mehrere fortschrittliche Techniken erreicht:
Aufgrund seiner Fähigkeit, riesige Datenmengen mit minimaler Verzögerung zu verarbeiten, TensorRT in Branchen eingesetzt, die auf Computer Vision und komplexe KI-Aufgaben angewiesen sind und in denen das Timing entscheidend ist.
Die Integration von TensorRT in Ihren Arbeitsablauf ist mit modernen KI-Werkzeugen einfach. Die ultralytics Das Paket
bietet eine nahtlose Methode zur Konvertierung von PyTorch in TensorRT . Dadurch können Benutzer die
modernste Architektur von Ultralytics YOLO26 mit der
Hardwarebeschleunigung von NVIDIA . Für Teams, die ihre Datensätze und Trainingspipelines vor dem Export verwalten möchten,
bietet Ultralytics bietet eine umfassende Umgebung zur Vorbereitung
von Modellen für einen solchen Hochleistungs-Einsatz.
Das folgende Beispiel zeigt, wie ein YOLO26-Modell in eine TensorRT exportiert wird (.engine) und
verwenden Sie es für Echtzeit-Inferenz:
from ultralytics import YOLO
# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")
# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")
# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")
# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")
Es ist wichtig, TensorRT anderen Begriffen zu unterscheiden, die häufig im Zusammenhang mit der Modellbereitstellung verwendet werden:
Für Entwickler, die die Leistung ihrer KI-Agenten oder Bildverarbeitungssysteme maximieren möchten, TensorRT das Verständnis des Übergangs von einem Trainingsframework zu einer optimierten Laufzeitumgebung wie TensorRT ein wichtiger Schritt im professionellen MLOps.