Descubra cómo TensorRT los modelos de aprendizaje profundo para NVIDIA . Aprenda a exportar Ultralytics a TensorRT una inferencia de baja latencia y alta velocidad hoy mismo.
TensorRT un kit de desarrollo de software (SDK) de inferencia de aprendizaje profundo de alto rendimiento desarrollado por NVIDIA. Está diseñado para optimizar los modelos de redes neuronales para su implementación, lo que proporciona una baja latencia de inferencia y un alto rendimiento para aplicaciones de aprendizaje profundo . Al actuar como un compilador de optimización, TensorRT redes entrenadas de marcos populares como PyTorch y TensorFlow las reestructura para que se ejecuten de manera eficiente enlas GPU NVIDIA . Esta capacidad es crucial para ejecutar modelos complejos de IA en entornos de producción donde la velocidad y la eficiencia son fundamentales.
La función principal de TensorRT convertir una red neuronal entrenada en un «motor» optimizado y específicamente adaptado al hardware de destino. Esto se consigue mediante varias técnicas avanzadas:
Debido a su capacidad para procesar grandes cantidades de datos con un retraso mínimo, TensorRT utiliza ampliamente en sectores que dependen de la visión artificial y de tareas complejas de IA en las que el tiempo es un factor crítico.
Integrar TensorRT en su flujo de trabajo es sencillo con las herramientas modernas de IA. El sitio ultralytics El paquete
proporciona un método sencillo para convertir PyTorch estándar en TensorRT . Esto permite a los usuarios aprovechar la
arquitectura de vanguardia de Ultralytics YOLO26 con la
aceleración por hardware de NVIDIA . Para los equipos que deseen gestionar sus conjuntos de datos y procesos de formación antes de la exportación,
el Plataforma Ultralytics ofrece un entorno completo para preparar
modelos para una implementación de alto rendimiento.
El siguiente ejemplo muestra cómo exportar un modelo YOLO26 a un archivo TensorRT (.engine) y
utilizarlo para inferencia en tiempo real:
from ultralytics import YOLO
# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")
# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")
# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")
# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")
Es importante distinguir TensorRT otros términos que se escuchan a menudo en el ámbito de la implementación de modelos:
Para los desarrolladores que desean maximizar el rendimiento de sus agentes de IA o sistemas de visión, comprender la transición de un marco de entrenamiento a un tiempo de ejecución optimizado como TensorRT un paso clave en MLOps profesional .