Découvrez comment TensorRT les modèles d'apprentissage profond pour NVIDIA . Apprenez dès aujourd'hui à exporter Ultralytics vers TensorRT d'une inférence à faible latence et haute vitesse.
TensorRT un kit de développement logiciel (SDK) d'inférence d'apprentissage profond haute performance développé par NVIDIA. Il est conçu pour optimiser les modèles de réseaux neuronaux en vue de leur déploiement, offrant une faible latence d'inférence et un débit élevé pour les applications d'apprentissage profond . En agissant comme un compilateur d'optimisation, TensorRT les réseaux entraînés à partir de frameworks populaires tels que PyTorch et TensorFlow les restructure pour qu'ils fonctionnent efficacement surles GPU NVIDIA . Cette capacité est cruciale pour exécuter des modèles d'IA complexes dans des environnements de production où la vitesse et l'efficacité sont primordiales.
La fonction principale de TensorRT de convertir un réseau neuronal entraîné en un « moteur » optimisé spécialement adapté au matériel cible. Pour ce faire, il utilise plusieurs techniques avancées :
En raison de sa capacité à traiter d'énormes quantités de données avec un délai minimal, TensorRT largement adopté dans les secteurs qui s'appuient sur la vision par ordinateur et des tâches d'IA complexes où le timing est essentiel.
L'intégration de TensorRT dans votre flux de travail est simple avec les outils d'IA modernes. Les ultralytics package
fournit une méthode transparente pour convertir PyTorch standard en TensorRT . Cela permet aux utilisateurs de tirer parti de l'
architecture de pointe de Ultralytics YOLO26 avec l'
accélération matérielle des NVIDIA . Pour les équipes qui souhaitent gérer leurs ensembles de données et leurs pipelines de formation avant l'exportation,
le Plate-forme Ultralytics offre un environnement complet pour préparer
des modèles à un déploiement aussi performant.
L'exemple suivant montre comment exporter un modèle YOLO26 vers un fichier TensorRT (.engine) et
l'utiliser pour inférence en temps réel:
from ultralytics import YOLO
# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")
# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")
# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")
# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")
Il est important de distinguer TensorRT autres termes souvent utilisés dans le domaine du déploiement de modèles:
Pour les développeurs qui souhaitent optimiser les performances de leurs agents IA ou de leurs systèmes de vision, comprendre la transition d'un cadre de formation vers un environnement d'exécution optimisé tel que TensorRT une étape clé dans le domaine professionnel des MLOps.