ディープラーニングモデルをTensorRT で最適化し、NVIDIA GPU 上でより高速で効率的な推論を実現。YOLO 、AIアプリケーションでリアルタイムのパフォーマンスを実現する。
TensorRT 、NVIDIAによって開発された高性能なディープラーニング推論オプティマイザとランタイムライブラリです。 NVIDIA.様々な最適化技術を適用することで、NVIDIA Graphics Processing Units (GPU)上の深層学習モデルを高速化する。TensorRT 主な目標は、実稼働環境に導入されるモデルに対して、可能な限り低い推論レイテンシと最高のスループットを達成することであり、リアルタイム推論アプリケーションにとって極めて重要なものとなっています。
TensorRT 、多くの場合、次のようなフレームワークからエクスポートされた学習済みのニューラルネットワークを使用します。 PyTorchまたは TensorFlowそして、ターゲットとするNVIDIA GPUために特別に最適化します。主な最適化ステップは以下の通りです:
これらの最適化により、特定のモデルとハードウェアに合わせた非常に効率的な実行時推論エンジンが実現される。
TensorRT 、Ultralytics YOLO モデルの主要なデプロイメントターゲットです。ユーザーは、学習したUltralytics YOLO モデルを TensorRT フォーマットにエクスポートすることで、NVIDIA Jetsonのようなエッジデバイスを含むNVIDIA ハードウェア上で大幅なスピードアップを実現することができます。これにより、様々な分野での高性能アプリケーションが可能になります。YOLOv5 RT-DETR 比較などのモデル比較ページでは、TensorRT 最適化を使用して達成された推論速度がよく紹介されています。またUltralytics 、DeepStream onNVIDIA Jetsonガイドのように、NVIDIA プラットフォームと統合するためのガイドも提供しています。
TensorRT 、NVIDIA ハードウェア上での高速かつ効率的な推論が重要な場面で広く使用されている: