Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

TensorRT

Entdecken Sie, wie TensorRT Deep-Learning-Modelle für NVIDIA TensorRT . Erfahren Sie, wie Sie Ultralytics TensorRT eine latenzarme, schnelle Inferenz in TensorRT exportieren können.

TensorRT ein von NVIDIA entwickeltes hochleistungsfähiges Software Development Kit (SDK) für Deep-Learning-Inferenz. Es wurde entwickelt, um neuronale Netzmodelle für den Einsatz zu optimieren und bietet eine geringe Inferenzlatenz und einen hohen Durchsatz für Deep-Learning-Anwendungen . Als Optimierungscompiler TensorRT trainierte Netzwerke aus gängigen Frameworks wie PyTorch und TensorFlow strukturiert sie neu, damit sie aufNVIDIA-GPUs effizient ausgeführt werden können. Diese Fähigkeit ist entscheidend für die Ausführung komplexer KI-Modelle in Produktionsumgebungen, in denen Geschwindigkeit und Effizienz von größter Bedeutung sind.

Wie TensorRT Modelle TensorRT

Die Kernfunktion von TensorRT , ein trainiertes neuronales Netzwerk in eine optimierte „Engine” zu konvertieren, die speziell auf die Zielhardware abgestimmt ist. Dies wird durch mehrere fortschrittliche Techniken erreicht:

  • Layer Fusion: Der Optimierer kombiniert mehrere Schichten eines neuronalen Netzwerks zu einem einzigen Kernel, wodurch der Speicherzugriffsaufwand reduziert und die Ausführungsgeschwindigkeit verbessert wird.
  • Präzisionskalibrierung: TensorRT Modi mit reduzierter Präzision, wie z. B. gemischte Präzision (FP16) und ganzzahlige Quantisierung (INT8). Durch die Reduzierung der Anzahl der zur Darstellung von Zahlen verwendeten Bits – oft mit minimalem Genauigkeitsverlust – können Entwickler mathematische Operationen erheblich beschleunigen und den Speicherverbrauch reduzieren. Dies ist eine Form der Modellquantisierung.
  • Kernel-Auto-Tuning: Die Software wählt automatisch die besten Datenschichten und Algorithmen für die jeweilige GPU aus und sorgt so für eine maximale Ausnutzung der parallelen Verarbeitungsmöglichkeiten der Hardware über CUDA.

Anwendungsfälle in der Praxis

Aufgrund seiner Fähigkeit, riesige Datenmengen mit minimaler Verzögerung zu verarbeiten, TensorRT in Branchen eingesetzt, die auf Computer Vision und komplexe KI-Aufgaben angewiesen sind und in denen das Timing entscheidend ist.

  1. Autonome Systeme: Im Bereich der KI in der Automobilindustrie müssen selbstfahrende Autos Videobilder von mehreren Kameras verarbeiten, um detect , Schilder und Hindernisse sofort detect . Mit TensorRT können Wahrnehmungsmodelle wie Objekterkennungsnetzwerke Bilder in Millisekunden analysieren, sodass das Steuerungssystem des Fahrzeugs sicherheitskritische Entscheidungen ohne Verzögerung treffen kann.
  2. Industrielle Automatisierung: Moderne Fabriken nutzen KI in der Fertigung für die automatisierte optische Inspektion. Hochgeschwindigkeitskameras nehmen Bilder von Produkten auf Fertigungsstraßen auf, und TensorRT Modelle identifizieren Fehler oder Anomalien in Echtzeit. Dadurch wird sichergestellt, dass die Qualitätskontrolle mit der Hochgeschwindigkeitsproduktion Schritt hält und häufig auf Edge-KI-Geräten wie der NVIDIA direkt in der Fabrikhalle eingesetzt wird.

Verwendung von TensorRT Ultralytics YOLO

Die Integration von TensorRT in Ihren Arbeitsablauf ist mit modernen KI-Werkzeugen einfach. Die ultralytics Das Paket bietet eine nahtlose Methode zur Konvertierung von PyTorch in TensorRT . Dadurch können Benutzer die modernste Architektur von Ultralytics YOLO26 mit der Hardwarebeschleunigung von NVIDIA . Für Teams, die ihre Datensätze und Trainingspipelines vor dem Export verwalten möchten, bietet Ultralytics bietet eine umfassende Umgebung zur Vorbereitung von Modellen für einen solchen Hochleistungs-Einsatz.

Das folgende Beispiel zeigt, wie ein YOLO26-Modell in eine TensorRT exportiert wird (.engine) und verwenden Sie es für Echtzeit-Inferenz:

from ultralytics import YOLO

# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")

# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")

# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")

# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")

TensorRT . ONNX . Trainingsframeworks

Es ist wichtig, TensorRT anderen Begriffen zu unterscheiden, die häufig im Zusammenhang mit der Modellbereitstellung verwendet werden:

  • Im Vergleich zuTensorFlow: Frameworks wie PyTorch in erster Linie für das Modelltraining und die Forschung konzipiert und bieten Flexibilität und einfache Fehlerbehebung. TensorRT eine Inferenz-Engine, die ausschließlich dafür entwickelt wurde, trainierte Modelle so schnell wie möglich auszuführen. Sie wird nicht für das Training verwendet.
  • Vs. ONNX: Das ONNX (Open Neural Network Exchange)-Format fungiert als Vermittlungsbrücke zwischen Frameworks. Während ONNX Interoperabilität ONNX (z. B. die Übertragung eines Modells von PyTorch eine andere Plattform), TensorRT auf hardwarespezifische Optimierungen. Oft wird ein Modell ONNX in ONNX konvertiert und dann von TensorRT geparst, TensorRT die endgültige Engine zu generieren.

Für Entwickler, die die Leistung ihrer KI-Agenten oder Bildverarbeitungssysteme maximieren möchten, TensorRT das Verständnis des Übergangs von einem Trainingsframework zu einer optimierten Laufzeitumgebung wie TensorRT ein wichtiger Schritt im professionellen MLOps.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten