ディープラーニングモデルをTensorRT で最適化し、NVIDIA GPU 上でより高速で効率的な推論を実現。YOLO 、AIアプリケーションでリアルタイムのパフォーマンスを実現する。
TensorRT 、NVIDIAによって開発された高性能なディープラーニング(DL)推論オプティマイザとランタイムライブラリです。 NVIDIA.これは、NVIDIA GPU上で動作するディープラーニングアプリケーションの推論スループットを最大化し、推論レイテンシを最小化するために特別に設計されています。TensorRT 、さまざまなフレームワークから訓練されたニューラルネットワークモデルを取り込み、数多くの最適化を適用して、高度に最適化されたランタイムエンジンを生成してデプロイします。このプロセスは、特にスピードと応答性が重要な本番環境で効率的にモデルを展開するために非常に重要です。
TensorRT 、いくつかの洗練された技術によって大幅な性能向上を実現している:
このワークフローでは通常、学習済みのモデル(たとえば PyTorchまたは TensorFlowのような中間フォーマットを介して ONNXのような中間フォーマットを介して)、TensorRT オプティマイザに入力する。TensorRT モデルを解析し、指定された精度とターゲットGPUグラフの最適化とターゲット固有の最適化を実行し、最終的にTensorRT エンジンと呼ばれる最適化された推論計画を生成します。このエンジンファイルをデプロイすることで、高速な推論が可能になります。
TensorRT 、機械学習ライフサイクルのモデルデプロイメントフェーズに大きく関係している。推論を大幅に高速化できるため、次のようなモデルによる物体検出など、リアルタイムの推論を必要とするアプリケーションには不可欠です。 Ultralytics YOLOのようなモデルによる物体検出、画像セグメンテーション、自然言語処理など、リアルタイムの推論を必要とするアプリケーションに不可欠です。のようなツールと並んで、NVIDIA ソフトウェアスタックの重要なコンポーネントです。 CUDA強力なデータセンターGPUから エッジAI用のエネルギー効率に優れたNVIDIA Jetsonモジュールまで、NVIDIA ハードウェアの可能性を最大限に活用することができます。Ultralytics シームレスな統合を提供し、ユーザーは YOLO モデルをTensorRT 形式にエクスポートして、最適化されたデプロイメントを行うことができます。
TensorRT 、高速で効率的なAI推論が必要とされるさまざまな業界で広く使用されている:
TensorRT NVIDIA GPUに特化した推論の最適化に焦点を当てているが、エコシステムには他のツールも存在する:
TensorRT の主な差別化要因は、NVIDIA ハードウェアとの深い統合と、GPU 向けに調整された積極的な最適化戦略であり、NVIDIA プラットフォーム上では、より汎用的なランタイムと比較して最高性能のベンチマーク(MLPerf ベンチマークを参照)が得られることがよくあります。モデルやデプロイの管理は、Ultralytics HUB のようなプラットフォームを使って効率化することができます。