リアルタイム推論とは、機械学習モデルがデータを処理し、ほぼ瞬時に予測を行う能力を指す。これは、自律走行車やヘルスケアのモニタリング、リアルタイムのビデオ分析など、即時の意思決定が必要なアプリケーションにとって極めて重要である。時間をかけてデータを収集し、まとめて処理するバッチ処理とは異なり、リアルタイム推論は各データポイントが到着した時点で処理し、即座に結果を提供する。
リアルタイム推論は、AIシステムが現実世界とタイムリーに相互作用できるようにする上で、極めて重要な役割を果たしている。例えば、自動運転車は、センサーからのリアルタイムデータに依存して、瞬時にナビゲーションを決定する。同様に、ヘルスケアにおけるAIでは、患者のバイタルを継続的にモニタリングすることで、異常が検出された場合に即座にアラートを発することができる。
リアルタイム機能は、AIを搭載したシステムがユーザーの行動に基づいて照明、温度、セキュリティ設定を動的に調整する、AI対応スマートホーム・ソリューションのようなアプリケーションにおけるユーザー体験を向上させる。
リアルタイム推論では通常、GPUやTPUなど、計算需要を処理できる強力なハードウェア上に学習済みモデルを配置する。モデル Ultralytics YOLOのようなモデルは、速度が最適化されているため、さまざまなプラットフォームでリアルタイムに物体検出を行うことができます。
データソースの近くで計算が行われるエッジコンピューティングとの統合により、レイテンシーが短縮され、リアルタイム推論の効率がさらに向上します。Ultralytics HUBfor Seamless Machine Learningを使用したエッジデバイスへのモデルの展開については、こちらをご覧ください。
リアルタイム推論の最も要求の厳しいアプリケーションのひとつに、自律走行がある。自動運転車におけるAIは、自動運転車がセンサーとAIモデルを使ってどのように環境を監視し、障害物を検知し、即座に運転判断を下すかを示している。
小売業では、AI主導の在庫システムで効率を高めることにより、リアルタイム推論で在庫管理を最適化することができる。ビジュアルAIシステムは、企業が正確な在庫レベルを維持し、無駄を削減し、顧客の需要に効率的に対応するのに役立ちます。
リアルタイム推論が即時的なデータ処理に重点を置いているのに対し、コンピューティングにおけるバッチ処理などの概念は、スケジュールされた時間にグループ単位でデータを収集し処理する。対照的に、リアルタイムシステムは常にアクティブで、継続的にデータを処理する。
モデルのデプロイメントを理解することは、リアルタイム推論と区別して、リアルタイム動作のための環境のセットアップを含む、MLモデルを使用できるようにすることである。
ハードウェア機能の継続的な向上と、プルーニングや量子化によるモデルの最適化などのモデル最適化技術は、リアルタイム推論の高速化に貢献している。しかし、特にモデルサイズ、消費電力、遅延のない精度の確保など、課題も残っています。 Ultralytics YOLOv8 とOpenVINO を用いて、より高速な推論を実現するための方法を探る。
リアルタイム推論は、ダイナミックな環境でAIの可能性を最大限に活用するために不可欠である。技術の進歩に伴い、その用途は拡大し、業界全体に革新的なソリューションを提供することになるでしょう。これらの技術を探求することに興味がある方は、リアルタイム処理を簡素化するプラットフォームであるUltralytics HUBfor Model Deploymentで実験することができます。