Ottimizza i modelli di deep learning con TensorRT per un'inferenza più veloce ed efficiente sulle GPU NVIDIA . Ottieni prestazioni in tempo reale con YOLO e le applicazioni di AI.
TensorRT è un ottimizzatore di inferenza e una libreria runtime di Deep Learning (DL) ad alte prestazioni sviluppata da NVIDIA. È stato progettato specificamente per massimizzare il throughput di inferenza e minimizzare la latenza di inferenza per le applicazioni di deep learning in esecuzione sulle GPUNVIDIA . TensorRT prende i modelli di rete neurale addestrati da vari framework e applica numerose ottimizzazioni per generare un motore runtime altamente ottimizzato per la distribuzione. Questo processo è fondamentale per distribuire i modelli in modo efficiente negli ambienti di produzione, soprattutto quando la velocità e la reattività sono fondamentali.
TensorRT ottiene miglioramenti significativi delle prestazioni grazie a diverse tecniche sofisticate:
Il flusso di lavoro prevede in genere di prendere un modello addestrato (ad esempio da PyTorch o TensorFlowspesso attraverso un formato intermedio come ONNX) e lo inserisce nell'ottimizzatore TensorRT . TensorRT analizza il modello, esegue ottimizzazioni del grafo e ottimizzazioni specifiche in base alla precisione e alla GPU di destinazione specificate e infine genera un piano di inferenza ottimizzato, noto come motore TensorRT . Questo file di motore può essere distribuito per un'inferenza veloce.
TensorRT è molto importante per la fase di implementazione dei modelli nel ciclo di vita dell'apprendimento automatico. La sua capacità di accelerare in modo significativo l'inferenza lo rende indispensabile per le applicazioni che richiedono un'inferenza in tempo reale, come ad esempio il rilevamento di oggetti con modelli come Ultralytics YOLO, la segmentazione delle immagini e l'elaborazione del linguaggio naturale. È un componente chiave dello stack software di NVIDIA , insieme a strumenti come CUDA, consentendo agli sviluppatori di sfruttare tutto il potenziale dell'hardware NVIDIA , dalle potenti GPU per data center ai moduli NVIDIA Jetson a basso consumo energetico per l'Edge AI. Ultralytics offre un'integrazione perfetta, consentendo agli utenti di esportare i modelli YOLO in formato TensorRT per una distribuzione ottimizzata, spesso utilizzata con piattaforme come Triton Inference Server.
TensorRT è ampiamente utilizzato in diversi settori in cui è necessaria un'inferenza AI veloce ed efficiente:
Mentre TensorRT si concentra sull'ottimizzazione dell'inferenza specificamente per le GPU NVIDIA , esistono altri strumenti nell'ecosistema:
Il principale elemento di differenziazione di TensorRT è la sua profonda integrazione con l'hardware NVIDIA e le sue strategie di ottimizzazione aggressiva su misura per le GPU, che spesso producono i benchmark più performanti (vedi MLPerf Benchmarks) su piattaforme NVIDIA rispetto a runtime più generici. La gestione dei modelli e delle implementazioni può essere semplificata utilizzando piattaforme come Ultralytics HUB.