Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

TensorRT

Descubra cómo TensorRT los modelos de aprendizaje profundo para NVIDIA . Aprenda a exportar Ultralytics a TensorRT una inferencia de baja latencia y alta velocidad hoy mismo.

TensorRT un kit de desarrollo de software (SDK) de inferencia de aprendizaje profundo de alto rendimiento desarrollado por NVIDIA. Está diseñado para optimizar los modelos de redes neuronales para su implementación, lo que proporciona una baja latencia de inferencia y un alto rendimiento para aplicaciones de aprendizaje profundo . Al actuar como un compilador de optimización, TensorRT redes entrenadas de marcos populares como PyTorch y TensorFlow las reestructura para que se ejecuten de manera eficiente enlas GPU NVIDIA . Esta capacidad es crucial para ejecutar modelos complejos de IA en entornos de producción donde la velocidad y la eficiencia son fundamentales.

Cómo TensorRT los modelos

La función principal de TensorRT convertir una red neuronal entrenada en un «motor» optimizado y específicamente adaptado al hardware de destino. Esto se consigue mediante varias técnicas avanzadas:

  • Fusión de capas: el optimizador combina varias capas de una red neuronal en un único núcleo, lo que reduce la sobrecarga de acceso a la memoria y mejora la velocidad de ejecución.
  • Calibración de precisión: TensorRT modos de precisión reducida, como la precisión mixta (FP16) y la cuantificación entera (INT8). Al reducir el número de bits utilizados para representar los números, a menudo con una pérdida mínima de precisión, los desarrolladores pueden acelerar significativamente las operaciones matemáticas y reducir el uso de memoria. Se trata de una forma de cuantificación de modelos.
  • Ajuste automático del núcleo: el software selecciona automáticamente las mejores capas de datos y algoritmos para GPU específica GPU que se está utilizando, lo que garantiza el máximo aprovechamiento de las capacidades de procesamiento paralelo del hardware a través de CUDA.

Aplicaciones en el mundo real

Debido a su capacidad para procesar grandes cantidades de datos con un retraso mínimo, TensorRT utiliza ampliamente en sectores que dependen de la visión artificial y de tareas complejas de IA en las que el tiempo es un factor crítico.

  1. Sistemas autónomos: en el ámbito de la IA en la automoción, los coches autónomos deben procesar las imágenes de vídeo de múltiples cámaras para detect , señales y obstáculos al instante. Con TensorRT, los modelos de percepción, como las redes de detección de objetos, pueden analizar fotogramas en milisegundos, lo que permite al sistema de control del vehículo tomar decisiones críticas para la seguridad sin retrasos.
  2. Automatización industrial: Las fábricas modernas utilizan la IA en la fabricación para la inspección óptica automatizada . Las cámaras de alta velocidad capturan imágenes de los productos en las líneas de montaje, y los modelos TensorRT identifican los defectos o anomalías en tiempo real. Esto garantiza que el control de calidad se adapte al ritmo de los entornos de producción de alta velocidad , a menudo mediante la implementación de dispositivos de IA periféricos como la plataforma NVIDIA directamente en la planta de producción.

Uso de TensorRT Ultralytics YOLO

Integrar TensorRT en su flujo de trabajo es sencillo con las herramientas modernas de IA. El sitio ultralytics El paquete proporciona un método sencillo para convertir PyTorch estándar en TensorRT . Esto permite a los usuarios aprovechar la arquitectura de vanguardia de Ultralytics YOLO26 con la aceleración por hardware de NVIDIA . Para los equipos que deseen gestionar sus conjuntos de datos y procesos de formación antes de la exportación, el Plataforma Ultralytics ofrece un entorno completo para preparar modelos para una implementación de alto rendimiento.

El siguiente ejemplo muestra cómo exportar un modelo YOLO26 a un archivo TensorRT (.engine) y utilizarlo para inferencia en tiempo real:

from ultralytics import YOLO

# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")

# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")

# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")

# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")

TensorRT ONNX marcos de entrenamiento

Es importante distinguir TensorRT otros términos que se escuchan a menudo en el ámbito de la implementación de modelos:

  • Vs.TensorFlow: Los marcos como PyTorch diseñados principalmente para el entrenamiento de modelos y la investigación, y ofrecen flexibilidad y facilidad de depuración. TensorRT un motor de inferencia diseñado exclusivamente para ejecutar modelos entrenados lo más rápido posible. No se utiliza para el entrenamiento.
  • Vs. ONNX: El ONNX (Open Neural Network Exchange) actúa como puente intermediario entre marcos. Mientras que ONNX interoperabilidad (por ejemplo, mover un modelo de PyTorch otra plataforma), TensorRT en la optimización específica del hardware. A menudo, un modelo se convierte ONNX a ONNX y, a continuación, TensorRT lo analiza TensorRT generar el motor final.

Para los desarrolladores que desean maximizar el rendimiento de sus agentes de IA o sistemas de visión, comprender la transición de un marco de entrenamiento a un tiempo de ejecución optimizado como TensorRT un paso clave en MLOps profesional .

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora