Scopri come TensorRT i modelli di deep learning per NVIDIA . Impara a esportare Ultralytics su TensorRT ottenere inferenze ad alta velocità e bassa latenza.
TensorRT un kit di sviluppo software (SDK) per l'inferenza di deep learning ad alte prestazioni sviluppato da NVIDIA. È progettato per ottimizzare i modelli di reti neurali per l'implementazione, offrendo una bassa latenza di inferenza e un throughput elevato per le applicazioni di deep learning. Agendo come un compilatore di ottimizzazione, TensorRT le reti addestrate da framework popolari come PyTorch e TensorFlow le ristruttura per eseguirle in modo efficiente sulleGPU NVIDIA . Questa capacità è fondamentale per l'esecuzione di modelli di IA complessi in ambienti di produzione in cui la velocità e l'efficienza sono fondamentali.
La funzione principale di TensorRT di convertire una rete neurale addestrata in un "motore" ottimizzato e specificamente messo a punto per l'hardware di destinazione. Ciò è possibile grazie a diverse tecniche avanzate:
Grazie alla sua capacità di elaborare enormi quantità di dati con un ritardo minimo, TensorRT ampiamente adottato nei settori che si basano sulla visione artificiale e su complesse attività di intelligenza artificiale in cui la tempistica è fondamentale.
L'integrazione di TensorRT nel flusso di lavoro è semplice con i moderni strumenti di IA. Il ultralytics Il pacchetto
fornisce un metodo semplice per convertire PyTorch standard in TensorRT . Ciò consente agli utenti di sfruttare l'
architettura all'avanguardia di Ultralytics YOLO26 con l'
accelerazione hardware delle NVIDIA . Per i team che desiderano gestire i propri set di dati e le pipeline di formazione prima dell'esportazione,
il Piattaforma Ultralytics offre un ambiente completo per preparare
modelli per un'implementazione così performante.
L'esempio seguente mostra come esportare un modello YOLO26 in un file TensorRT (.engine) e
utilizzarlo per inferenza in tempo reale:
from ultralytics import YOLO
# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")
# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")
# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")
# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")
È importante distinguere TensorRT altri termini spesso utilizzati nel contesto dell'implementazione dei modelli:
Per gli sviluppatori che mirano a massimizzare le prestazioni dei propri agenti AI o sistemi di visione, comprendere la transizione da un framework di formazione a un runtime ottimizzato come TensorRT un passo fondamentale nel MLOps professionale .