Tối ưu hóa các mô hình học sâu với TensorRT để suy luận nhanh hơn, hiệu quả hơn NVIDIA GPU. Đạt được hiệu suất thời gian thực với YOLO và ứng dụng AI.
TensorRT là một trình tối ưu hóa suy luận học sâu hiệu suất cao và thư viện thời gian chạy được phát triển bởi NVIDIA . Nó tăng tốc các mô hình học sâu trên NVIDIA Bộ xử lý đồ họa (GPU) bằng cách áp dụng các kỹ thuật tối ưu hóa khác nhau. Mục tiêu chính của TensorRT là đạt được độ trễ suy luận thấp nhất có thể và thông lượng cao nhất cho các mô hình được triển khai trong môi trường sản xuất, khiến nó trở nên quan trọng đối với các ứng dụng suy luận thời gian thực .
TensorRT sử dụng mạng nơ-ron được đào tạo, thường được xuất từ các khuôn khổ như PyTorch hoặc TensorFlow và tối ưu hóa nó cụ thể cho mục tiêu NVIDIA GPU Các bước tối ưu hóa chính bao gồm:
Những tối ưu hóa này tạo ra một công cụ suy luận thời gian chạy có hiệu suất cao, phù hợp với từng mô hình và phần cứng cụ thể.
TensorRT là mục tiêu triển khai quan trọng cho Ultralytics YOLO mô hình. Người dùng có thể xuất các mô hình YOLO Ultralytics đã đào tạo của họ sang TensorRT định dạng để đạt được tốc độ tăng đáng kể trên NVIDIA phần cứng, bao gồm các thiết bị biên như NVIDIA Jetson . Điều này cho phép các ứng dụng hiệu suất cao trong nhiều lĩnh vực khác nhau. Các trang so sánh mô hình, chẳng hạn như so sánh YOLOv5 với RT-DETR , thường thể hiện tốc độ suy luận đạt được bằng cách sử dụng TensorRT tối ưu hóa. Ultralytics cũng cung cấp hướng dẫn để tích hợp với NVIDIA nền tảng, như hướng dẫn DeepStream trên NVIDIA Jetson .
TensorRT được sử dụng rộng rãi trong đó suy luận nhanh chóng và hiệu quả về NVIDIA phần cứng rất quan trọng: