推論レイテンシとは、機械学習やAIモデルが推論中に入力を処理し、出力を出すまでの時間を指す。この指標は、自律走行車、ヘルスケア診断、小売レジシステムなど、リアルタイムまたはリアルタイムに近い応答が不可欠なアプリケーションでは非常に重要です。推論レイテンシは、多くの場合ミリ秒(ms)単位で測定され、AI駆動アプリケーションのユーザーエクスペリエンスとシステム効率に直接影響します。
推論レイテンシは、AIモデルのスピードと使いやすさを評価する上で重要なパフォーマンス指標です。レイテンシーが低いほど応答が速くなり、これはリアルタイムの意思決定を必要とするアプリケーションにとって極めて重要です。例えば、自律走行車では、歩行者や交通信号の認識に遅れが生じると、安全性に重大な影響を及ぼす可能性がある。同様に、ヘルスケアでは、医療画像の迅速な分析が緊急事態における救命につながります。
推論の待ち時間を最適化することは、ユーザーの満足度を高めるだけでなく、特にエッジデバイスやモバイルプラットフォームのようなリソースに制約のある環境では、計算コストを削減することにもつながる。
推論の待ち時間には、以下のようないくつかの要因がある:
推論の待ち時間を短縮するために、開発者はしばしばいくつかの戦略を採用する:
推論レイテンシは自動運転車において重要な役割を果たす。例えば、リアルタイムの物体検出と意思決定のために配備されたモデルは、障害物、歩行者、交通標識を認識するためにカメラフィードを迅速に処理しなければならない。Ultralytics YOLO 自動運転のためのAIで使用されるモデルは、高い精度を維持しながら迅速な検出を可能にする。
小売環境では、ビジョンAIシステムが物体検出を使用してレジで商品を認識するため、バーコードが不要になります。低遅延の推論により、シームレスな顧客体験を実現します。高速かつ正確な物体検出により、小売業におけるAIがどのように業務効率を高めるかをご覧ください。
医療画像アプリケーションは、迅速な診断のために推論レイテンシーが低いことに依存している。例えば、CTスキャンで異常を分析するAIモデルは、医師の迅速な判断を支援するためにリアルタイムで結果を提供する必要があります。ヘルスケアにおけるAIの詳細を見る。
推論レイテンシは推論中の応答時間に焦点を当てたもので、以下のような関連用語とは区別される:
推論レイテンシは、AIモデルの展開において、特にリアルタイムまたは低レイテンシのパフォーマンスが要求されるアプリケーションにとって重要な指標です。レイテンシに影響を与える要因を理解し、最適化技術を採用することで、開発者はモデルが高速で信頼性の高い結果を提供できるようになります。Ultralytics HUBは、モデルを効率的にトレーニング、デプロイ、モニタリングするためのツールを提供し、多様なユースケースで最適なパフォーマンスを達成することを容易にします。AI ワークフローを合理化するUltralytics HUB をご覧ください。