用語集

推論レイテンシー

低推論レイテンシーでAIパフォーマンスを最適化。リアルタイム応答を強化するための重要な要因、実際の応用例、テクニックを学びます。

推論レイテンシは、人工知能や機械学習（ML）において、特に実世界のアプリケーションにモデルを展開する際に重要な指標である。これは、（画像やテキストクエリのような）入力が学習済みモデルに提示されてから、モデルが予測や出力を生成するまでの遅延時間を指します。基本的には、モデルが新しいデータを処理して結果を出すまでの時間を測定します。推論遅延を最小化することは、タイムリーな応答を必要とするアプリケーションにとって極めて重要であり、AIシステムの使いやすさと有効性に直接影響します。

推論遅延の関連性

低推論レイテンシは、肯定的なユーザーエクスペリエンスと多くのAIアプリケーションの実現可能性にとって不可欠である。チャットボットやリアルタイム翻訳サービスなどの対話型システムでは、遅延が大きいと顕著な遅延につながり、ユーザーをイライラさせます。自律走行車や医療診断ツールのようなクリティカルなアプリケーションでは、わずかな遅延でも重大な結果をもたらし、安全性や意思決定に影響を及ぼします。したがって、推論レイテンシを理解し、測定し、最適化することは、AIモデルを効果的に展開するための重要な側面です。これは、単位時間当たりに処理される推論の数を測定するスループットとは異なる指標です。アプリケーションは、全体的なスループットが極端に高くなくても、低いレイテンシー（個々のレスポンスの速さ）を必要とする場合があります。これらの異なる側面の最適化については、OpenVINO Latency vs Throughput Modesのようなガイドで詳しく学ぶことができます。

実世界での応用

推論レイテンシが低いことの重要性は、さまざまな領域で明らかになっている：

自律走行車：自動運転車は、安全なナビゲーションを行うために、迅速な物体検知とシーン理解に依存しています。低レイテンシーにより、車両は歩行者、他の車両、または予期せぬ障害物に即座に反応することができます。 Ultralytics YOLOモデルは、多くの場合、このようなリアルタイム推論タスクに最適化されています。
対話型AI：バーチャルアシスタント（Amazon Alexa、Google Assistant）や翻訳サービスのようなアプリケーションは、音声やテキスト入力を処理し、会話形式で応答する必要がある。待ち時間が長いと、インタラクションの流れが途切れ、ユーザー・エクスペリエンスが低下します。
産業オートメーション 製造業では、コンピュータ・ビジョン・システムが組立ラインの品質管理チェックを行います。レイテンシーが低いため、生産を遅らせることなく、不良品を迅速に特定し、取り除くことができます。そのため、エッジデバイスにモデルを導入することがよくあります。
ヘルスケア医療画像（CTスキャンやX線など）を分析するAIは、診断の正確さとタイムリーな治療計画を支援するために、結果を迅速に提供する必要があります。YOLO 腫瘍検出にどのように使用されているかをご覧ください。
セキュリティシステム：リアルタイムの監視システムは、脅威の検知（侵入者や放置された物体の特定など）にAIを使用する。レイテンシーが低いため、セキュリティアラームシステムのような即時の警告と応答が可能です。

推論遅延に影響を与える要因

モデルが推論を実行する速さには、いくつかの要因が影響する：

モデルの複雑さ：より大きく複雑なニューラルネットワーク（NN）は、一般に、より多くの計算を必要とし、より高いレイテンシにつながる。アーキテクチャの選択は重要な役割を果たします。YOLOv10とYOLO11ように、異なるモデルを比較してトレードオフを確認することができます。
ハードウェア：推論に使用されるハードウェアの処理能力は非常に重要である。GPU、TPU、または専用のAIアクセラレーターGoogle Edge TPUs、NVIDIA Jetson）のような特殊なハードウェアは、標準的なCPUに比べてレイテンシーを大幅に削減することができる。
ソフトウェアの最適化：最適化された推論エンジン NVIDIA TensorRTやIntel OpenVINOような最適化された推論エンジンを使うことで、モデルグラフを最適化し、ハードウェア固有の命令を活用することで、パフォーマンスを劇的に向上させることができる。フレームワーク PyTorchのようなフレームワークも最適化のためのツールを提供しています。モデルを ONNXのような形式にエクスポートすることで、異なるエンジン間でのデプロイが容易になります。
バッチサイズ：複数の入力をまとめて処理（バッチ処理）すると、全体のスループットは向上するが、個々の推論の待ち時間が長くなることが多い。リアルタイム・アプリケーションでは通常、バッチ・サイズは1である。
データ転送：入力データをモデルに移動し、出力を取得するのにかかる時間は、特に分散コンピューティングやクラウドコンピューティングのシナリオでは、全体的な待ち時間を増加させる可能性がある。
量子化とプルーニング： モデルの量子化（数値精度を下げる）やモデルの刈り込み（冗長なモデル・パラメータを削除する）といったテクニックは、モデル・サイズと計算量を削減し、待ち時間を短縮します。モデルの最適化とは何かについては、こちらのクイックガイドをご覧ください。

推論レイテンシの管理は、モデルの精度、計算コスト、応答時間のバランスを取る重要な作業であり、Ultralytics HUBのようなプラットフォームで管理される効果的なAIソリューションの展開に不可欠です。コンピュータビジョンプロジェクトのステップを理解することは、モデル展開中にこれらのパフォーマンス要件を計画することを含みます。

推論レイテンシー

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

推論遅延の関連性

実世界での応用

推論遅延に影響を与える要因

ブログをもっと読む

Ultralytics コミュニティに参加する

推論レイテンシー

Ultralytics HUB でを使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

推論遅延の関連性

実世界での応用

推論遅延に影響を与える要因

ブログをもっと読む

Ultralytics コミュニティに参加する

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。