用語集

推論レイテンシー

低推論レイテンシーでAIパフォーマンスを最適化。リアルタイム応答を強化するための重要な要因、実際の応用例、テクニックを学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

推論レイテンシは、人工知能や機械学習(ML)において、特に実世界のアプリケーションにモデルを展開する際に重要な指標である。これは、(画像やテキストクエリのような)入力が学習済みモデルに提示されてから、モデルが予測や出力を生成するまでの遅延時間を指します。基本的には、モデルが新しいデータを処理して結果を出すまでの時間を測定します。推論遅延を最小化することは、タイムリーな応答を必要とするアプリケーションにとって極めて重要であり、AIシステムの使いやすさと有効性に直接影響します。

推論遅延の関連性

低推論レイテンシは、肯定的なユーザーエクスペリエンスと多くのAIアプリケーションの実現可能性にとって不可欠である。チャットボットやリアルタイム翻訳サービスなどの対話型システムでは、遅延が大きいと顕著な遅延につながり、ユーザーをイライラさせます。自律走行車や 医療診断ツールのようなクリティカルなアプリケーションでは、わずかな遅延でも重大な結果をもたらし、安全性や意思決定に影響を及ぼします。したがって、推論レイテンシを理解し、測定し、最適化することは、AIモデルを効果的に展開するための重要な側面です。これは、単位時間当たりに処理される推論の数を測定するスループットとは異なる指標です。アプリケーションは、全体的なスループットが極端に高くなくても、低いレイテンシー(個々のレスポンスの速さ)を必要とする場合があります。これらの異なる側面の最適化については、OpenVINO Latency vs Throughput Modesのようなガイドで詳しく学ぶことができます。

実世界での応用

推論レイテンシが低いことの重要性は、さまざまな領域で明らかになっている:

  • 自律走行車:自動運転車は、安全なナビゲーションを行うために、迅速な物体検知とシーン理解に依存しています。低レイテンシーにより、車両は歩行者、他の車両、または予期せぬ障害物に即座に反応することができます。 Ultralytics YOLOモデルは、多くの場合、このようなリアルタイム推論タスクに最適化されています。
  • 対話型AI:バーチャルアシスタント(Amazon AlexaGoogle Assistant)や翻訳サービスのようなアプリケーションは、音声やテキスト入力を処理し、会話形式で応答する必要がある。待ち時間が長いと、インタラクションの流れが途切れ、ユーザー・エクスペリエンスが低下します。
  • 産業オートメーション 製造業ではコンピュータ・ビジョン・システムが組立ラインの品質管理チェックを行います。レイテンシーが低いため、生産を遅らせることなく、不良品を迅速に特定し、取り除くことができます。そのため、エッジデバイスにモデルを導入することがよくあります。
  • ヘルスケア医療画像(CTスキャンやX線など)を分析するAIは、診断の正確さとタイムリーな治療計画を支援するために、結果を迅速に提供する必要があります。YOLO 腫瘍検出にどのように使用されているかをご覧ください。
  • セキュリティシステム:リアルタイムの監視システムは、脅威の検知(侵入者や放置された物体の特定など)にAIを使用する。レイテンシーが低いため、セキュリティアラームシステムのような即時の警告と応答が可能です。

推論遅延に影響を与える要因

モデルが推論を実行する速さには、いくつかの要因が影響する:

  • モデルの複雑さ:より大きく複雑なニューラルネットワーク(NN)は、一般に、より多くの計算を必要とし、より高いレイテンシにつながる。アーキテクチャの選択は重要な役割を果たします。YOLOv10とYOLO11ように、異なるモデルを比較してトレードオフを確認することができます。
  • ハードウェア:推論に使用されるハードウェアの処理能力は非常に重要である。GPUTPU、または専用のAIアクセラレーターGoogle Edge TPUsNVIDIA Jetson)のような特殊なハードウェアは、標準的なCPUに比べてレイテンシーを大幅に削減することができる。
  • ソフトウェアの最適化:最適化された推論エンジンNVIDIA TensorRTIntel OpenVINOような最適化された推論エンジンを使うことで、モデルグラフを最適化し、ハードウェア固有の命令を活用することで、パフォーマンスを劇的に向上させることができる。フレームワーク PyTorchのようなフレームワークも最適化のためのツールを提供しています。モデルを ONNXのような形式にエクスポートすることで、異なるエンジン間でのデプロイが容易になります。
  • バッチサイズ:複数の入力をまとめて処理(バッチ処理)すると、全体のスループットは向上するが、個々の推論の待ち時間が長くなることが多い。リアルタイム・アプリケーションでは通常、バッチ・サイズは1である。
  • データ転送:入力データをモデルに移動し、出力を取得するのにかかる時間は、特に分散コンピューティングやクラウドコンピューティングのシナリオでは、全体的な待ち時間を増加させる可能性がある。
  • 量子化とプルーニング: モデルの量子化(数値精度を下げる)やモデルの刈り込み(冗長なモデル・パラメータを削除する)といったテクニックは、モデル・サイズと計算量を削減し、待ち時間を短縮します。モデルの最適化とは何かについては、こちらのクイックガイドをご覧ください。

推論レイテンシの管理は、モデルの精度、計算コスト、応答時間のバランスを取る重要な作業であり、Ultralytics HUBのようなプラットフォームで管理される効果的なAIソリューションの展開に不可欠です。コンピュータビジョンプロジェクトのステップを理解することは、モデル展開中にこれらのパフォーマンス要件を計画することを含みます。

すべて読む