用語集

推論レイテンシー

AIにおいて推論レイテンシーが重要な理由、その主な要因、そして多様なアプリケーションでリアルタイム・パフォーマンスを実現するための最適化方法をご紹介します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

推論レイテンシとは、機械学習やAIモデルが推論中に入力を処理し、出力を出すまでの時間を指す。この指標は、自律走行車、ヘルスケア診断、小売レジシステムなど、リアルタイムまたはリアルタイムに近い応答が不可欠なアプリケーションでは非常に重要です。推論レイテンシは、多くの場合ミリ秒(ms)単位で測定され、AI駆動アプリケーションのユーザーエクスペリエンスとシステム効率に直接影響します。

推論遅延が重要な理由

推論レイテンシは、AIモデルのスピードと使いやすさを評価する上で重要なパフォーマンス指標です。レイテンシーが低いほど応答が速くなり、これはリアルタイムの意思決定を必要とするアプリケーションにとって極めて重要です。例えば、自律走行車では、歩行者や交通信号の認識に遅れが生じると、安全性に重大な影響を及ぼす可能性がある。同様に、ヘルスケアでは、医療画像の迅速な分析が緊急事態における救命につながります。

推論の待ち時間を最適化することは、ユーザーの満足度を高めるだけでなく、特にエッジデバイスやモバイルプラットフォームのようなリソースに制約のある環境では、計算コストを削減することにもつながる。

推論遅延に影響を与える要因

推論の待ち時間には、以下のようないくつかの要因がある:

  • モデルの複雑さ:多数のレイヤーやパラメータを持つような大規模で複雑なモデルは、一般的に入力処理に時間がかかる。
  • ハードウェアの性能:GPU、TPU、CPUなどのハードウェアの選択は、レイテンシに大きく影響する。例えば、GPUは並列処理に最適化されているため、推論タスクのレイテンシを短縮できることが多い。
  • バッチサイズ:複数の入力を同時に処理(バッチ処理)することで、アプリケーションやハードウェアの能力に応じて、待ち時間を短縮または増加させることができます。バッチサイズの最適化について詳しくはこちらをご覧ください。
  • 最適化技術モデルの量子化や枝刈りなどの技術は、モデルを単純化したりサイズを小さくすることでレイテンシを大幅に削減することができる。
  • フレームワークとツール:推論に使われるソフトウェアフレームワーク、例えば PyTorchやTensorRT のような推論に使われるソフトウェアフレームワークは、最適化やハードウェアアクセラレーションによってレイテンシーに影響を与える可能性がある。

推論レイテンシーの最適化

推論の待ち時間を短縮するために、開発者はしばしばいくつかの戦略を採用する:

  • モデルの最適化:刈り込み、量子化、知識抽出などのテクニックにより、モデルを合理化し、実行速度を向上させることができます。モデルの最適化について詳しく知る。
  • ハードウェアアクセラレーション:を搭載したNVIDIA GPU のような専用アクセラレータを使用します。 TensorRTまたはIntel の OpenVINOツールキットを使用することで、推論時間を劇的に改善することができます。
  • 効率的なデプロイメント:や Lite のような最適化されたデプロイメント形式を活用することで、モデルが特定のプラットフォームに最適化されます。 ONNXやTensorFlow Liteのような最適化されたデプロイメント形式を利用することで、モデルが特定のプラットフォームにより適したものになります。
  • エッジAI: Coral EdgeTPU を搭載したRaspberry Piのようなエッジデバイス上で推論を実行することで、クラウドベースの処理で発生するレイテンシを最小限に抑えることができる。

実世界での応用

1.自律走行車

推論レイテンシは自動運転車において重要な役割を果たす。例えば、リアルタイムの物体検出と意思決定のために配備されたモデルは、障害物、歩行者、交通標識を認識するためにカメラフィードを迅速に処理しなければならない。Ultralytics YOLO 自動運転のためのAIで使用されるモデルは、高い精度を維持しながら迅速な検出を可能にする。

2.小売レジ自動化

小売環境では、ビジョンAIシステムが物体検出を使用してレジで商品を認識するため、バーコードが不要になります。低遅延の推論により、シームレスな顧客体験を実現します。高速かつ正確な物体検出により、小売業におけるAIがどのように業務効率を高めるかをご覧ください。

3.ヘルスケア診断

医療画像アプリケーションは、迅速な診断のために推論レイテンシーが低いことに依存している。例えば、CTスキャンで異常を分析するAIモデルは、医師の迅速な判断を支援するためにリアルタイムで結果を提供する必要があります。ヘルスケアにおけるAIの詳細を見る。

関連概念

推論レイテンシは推論中の応答時間に焦点を当てたもので、以下のような関連用語とは区別される:

  • リアルタイム推論:瞬時の応答が要求される推論タスクを指し、多くの場合、厳しいレイテンシ制約があります。リアルタイム推論について詳しくはこちら。
  • 精度:レイテンシーとは異なり、精度はモデルの予測の正しさを評価します。AIモデルのパフォーマンスにおける精度の役割を理解するために、精度について調べてみましょう。
  • スループット:モデルが1秒間に実行できる推論の回数を測定するもので、レイテンシーと並んで最適化されることが多い。スピードを優先するアプリケーションでは、レイテンシとスループットのバランスをとる方法を学びましょう。

結論

推論レイテンシは、AIモデルの展開において、特にリアルタイムまたは低レイテンシのパフォーマンスが要求されるアプリケーションにとって重要な指標です。レイテンシに影響を与える要因を理解し、最適化技術を採用することで、開発者はモデルが高速で信頼性の高い結果を提供できるようになります。Ultralytics HUBは、モデルを効率的にトレーニング、デプロイ、モニタリングするためのツールを提供し、多様なユースケースで最適なパフォーマンスを達成することを容易にします。AI ワークフローを合理化するUltralytics HUB をご覧ください。

すべて読む