グリーンチェック
クリップボードにコピーされたリンク

ビジョンAIソリューションのリアルタイム推論がインパクトを与える

コンピュータビジョンにおけるリアルタイム推論が様々なアプリケーションで重要である理由を発見し、瞬時の意思決定を可能にするその役割を探る。

私たちは皆、インターネット接続の遅さが引き起こすフラストレーションに対処したことがあるだろう。しかし、障害物に反応する自動運転車や、重要なスキャンを分析する医師のような、重大な状況での遅れを想像してみてほしい。数秒の余分な時間が重大な結果をもたらす可能性があるのだ。 

そこで、リアルタイムAI推論が違いを生み出すことができる。高速処理とリアルタイム予測により、コンピューター・ビジョン・ソリューションは視覚データを瞬時に処理し、反応することができる。このような一瞬の判断は、安全性、効率性、日常の利便性を高めることができる。 

例えば、外科医がロボット・アシスタントを使って繊細な手術を行うことを考えてみよう。すべての動作は高速接続を通じて制御され、ロボットのビジョンシステムはリアルタイムで術野を処理し、外科医に瞬時に視覚的なフィードバックを与える。このフィードバックループが少しでも遅れると、重大なミスにつながり、患者を危険にさらすことになる。これは、なぜリアルタイムの推論が重要なのかを示す完璧な例であり、遅れは許されない。 

実世界のアプリケーションにおけるAI推論は、推論エンジン(AIモデルを効率的に実行するソフトウェアまたはハードウェア)、推論レイテンシー(入力と出力の間の遅延)、リアルタイム推論(最小限の遅延で処理し反応するAIシステムの能力)という3つの重要な概念に依存している。

この記事では、これらのコアコンセプトと、次のようなコンピュータビジョンモデルについて説明します。 Ultralytics YOLO11のようなコンピュータビジョンモデルが、どのように瞬時の予測に依存するアプリケーションを可能にするのかについて説明します。

AIの推論とは何か?

推論の実行とは、学習済みのAIモデルを使用して新しいデータを分析し、予測やタスクの解決を行うプロセスである。膨大な量のラベル付きデータを処理してモデルを学習させるトレーニングとは異なり、推論は、すでに学習済みのモデルを使用して、迅速かつ正確に結果を生成することに重点を置いている。

図1.推論とは何かを理解する

例えば、野生動物の保護では、AIカメラトラップはコンピュータ・ビジョン・モデルを使用してリアルタイムで動物を識別・分類する。カメラが動きを検知すると、AIモデルはそれがシカなのか、肉食動物なのか、あるいは密猟者なのかを瞬時に認識し、研究者が動物の個体数を追跡し、人間の介入なしに絶滅危惧種を保護するのに役立つ。この迅速な識別により、リアルタイムのモニタリングと潜在的脅威への迅速な対応が可能になる。

推論エンジンを理解する

学習された機械学習モデルは、常にそのままの形で配備できるわけではない。推論エンジンは、機械学習モデルを効率的に実行し、実世界への展開のために最適化するように設計された、専用のソフトウェアまたはハードウェア・ツールである。モデルの圧縮、量子化、グラフ変換などの最適化テクニックを使用してパフォーマンスを向上させ、リソース消費を削減することで、モデルをさまざまな環境に展開できるようにする。 

推論エンジンの核心は、計算オーバヘッドの削減、レイテンシーの最小化、そして高速で正確な予測を可能にする効率性の向上にある。最適化されると、エンジンは新しいデータに対してモデルを実行し、リアルタイム推論を効率的に生成できるようになる。この最適化により、AIモデルは高性能なクラウドサーバーと、スマートフォン、IoTデバイス、組み込みシステムなどのリソースに制約のあるエッジデバイスの両方でスムーズに実行できるようになります。

推論遅延による問題

推論レイテンシとは、AIシステムが入力データ(カメラからの画像など)を受け取ってから出力(画像内のオブジェクトの検出など)を出すまでの時間遅延のこと。わずかな遅延であっても、リアルタイムAIアプリケーションのパフォーマンスや使い勝手に大きな影響を与える可能性がある。

推論の待ち時間は3つの重要な段階で発生する:

  • 前処理時間:モデルに入力する前に入力データを準備するために必要な時間。これには、モデルの入力寸法に合わせて画像のサイズを変更すること、精度を高めるためにピクセル値を正規化すること、フォーマットを変換すること(RGBからグレースケールへ、ビデオからフレームシーケンスへなど)が含まれる。
  • 計算時間:モデルが推論を実行するのにかかる実際の時間。これには、ディープネットワークにおけるレイヤー単位の計算、行列の乗算、畳み込み、メモリと処理ユニット間のデータ転送などの処理が含まれる。
  • ポスト処理時間:生のモデル出力を意味のある結果に変換するのに必要な時間。これには、物体検出におけるバウンディングボックスの描画、画像認識における偽陽性のフィルタリング、異常検出における閾値の適用などが含まれる。

推論レイテンシはリアルタイム・アプリケーションにおいて非常に重要である。例えば、組立ラインにおける自動欠陥検出では、コンベアベルトを移動する製品を検査するためにコンピュータビジョンを使用することができる。 

システムは、製品が次の段階に進む前に、欠陥を素早く特定し、フラグを立てなければならない。モデルの画像処理に時間がかかりすぎると、不良品が間に合わず、材料の無駄やコストのかかる手直し、不良品が顧客に届くことになりかねません。待ち時間を短縮することで、メーカーは品質管理を改善し、効率を高め、損失を削減することができます。

推論の待ち時間を短縮する方法

推論の待ち時間を最小限に抑えることは、多くのコンピュータ・ビジョン・アプリケーションにおいて不可欠である。これを実現するために、様々なテクニックを使用することができる。推論待ち時間を短縮するために使用される最も一般的なテクニックのいくつかを説明しましょう。

モデル刈り込み

モデルの刈り込みは、不要な接続(重み)を削除してニューラルネットワークを単純化し、より小さく、より高速にする。このプロセスによってモデルの計算負荷が軽減され、精度に大きな影響を与えることなくスピードが向上します。 

最も重要なコネクションだけを残すことで、特に処理能力に制限のあるデバイスでは、プルーニングによって効率的な推論が保証され、パフォーマンスが向上する。これは、モバイルAI、ロボット工学、エッジコンピューティングなどのリアルタイムアプリケーションで、信頼性を維持しながら効率を高めるために広く使用されている。

図2.モデル刈り込みを使用して、効果的でない接続を排除する。

モデルの量子化

モデルの量子化とは、AIモデルが計算に使用する数値を単純化することで、より高速に実行し、より少ないメモリで済むようにする技術である。通常、これらのモデルは32ビットの浮動小数点数で動作し、非常に正確だが多くの処理能力を必要とする。量子化によってこれらの数値は8ビットの整数になり、処理しやすくなり、より少ないスペースで済むようになる。 

図3.モデル量子化を使って浮動小数点値を整数表現に変換。

効率的なモデルの使用

AIモデルの設計は、予測をいかに迅速に行えるかに大きな影響を与える。YOLO11ようなモデルは、効率的な推論のために構築されており、処理速度が重要なアプリケーションに最適である。

AIソリューションを構築する場合、利用可能なリソースとパフォーマンスのニーズに基づいて適切なモデルを選択することが重要です。重すぎるモデルで始めると、処理時間の遅さ、消費電力の増加、リソースが限られたデバイスへの展開の難しさといった問題に直面する可能性が高くなります。軽量モデルは、特にリアルタイム・アプリケーションやエッジ・アプリケーションでスムーズなパフォーマンスを保証します。

スピードと精度:リアルタイム推論の最適化

レイテンシーを減らすための様々なテクニックがあるが、リアルタイム推論の重要な部分は、スピードと精度のバランスをとることである。モデルを高速化するだけでは十分ではなく、正確性を損なうことなく推論速度を最適化する必要がある。高速だが不正確な予測を行うシステムは効果がない。そのため、モデルが実世界の状況でうまく機能するかどうかを確認するためには、徹底的なテストが不可欠なのだ。テスト中は高速に見えても、実際の条件下では失敗するようなシステムは、真に最適化されているとは言えません。

リアルタイム推論を活用したビジョンAIアプリケーション

次に、リアルタイム推論が視覚的な入力に即座に反応できるようにすることで、業界を変革している実際のアプリケーションをいくつか紹介しよう。

小売店のセルフレジ・システム

YOLO11 ようなコンピュータ・ビジョン・モデルは、商品認識をより迅速かつ正確にすることで、セルフレジ・システムの改善に役立ちます。YOLO1111は、物体検出やインスタンスのセグメンテーションなど、様々なコンピューター・ビジョン・タスクをサポートしているため、バーコードが欠落していたり、破損していたりしても、商品を識別することが可能です。ビジョンAIは、手入力の必要性を減らし、チェックアウトプロセスをスピードアップすることができます。

商品識別だけでなく、コンピュータ・ビジョンをセルフレジ・システムに組み込むことで、価格の確認、不正行為の防止、顧客の利便性向上を図ることができる。AIを搭載したカメラは、類似商品を自動的に区別し、レジでの不審な行動を検出することができる。これには、顧客やレジ係が意図せず商品を見落とす「ノンスキャン」や、より高価な商品の上に安価なバーコードを貼る「商品のすり替え」など、より意図的な不正行為の識別も含まれる。

図4.AIはセルフレジを強化できる。

その好例が、コンピューター・ビジョンとAIをセルフ・レジ・システムに組み込んだ米大手小売企業のクローガーだ。リアルタイムのビデオ分析により、クローガーは75%以上のレジミスを自動的に修正することができ、顧客体験と店舗運営の両方を改善している。

コンピュータビジョンによる品質検査

品質管理のために製品を手作業で検査するのは時間がかかり、必ずしも正確ではありません。そのため、製造工程の早い段階で欠陥を発見するために、コンピューター・ビジョンを使用した目視検査ワークフローに切り替える製造業者が増えています。

高解像度カメラとVision AIは、人間が見逃してしまうような小さな欠陥を発見することができ、YOLO11 ようなモデルは、完璧な製品だけが顧客に届くように、リアルタイムの品質チェック、選別、計数を支援することができる。このプロセスを自動化することで、時間の節約、コスト削減、無駄の削減が可能になり、生産がよりスムーズで効率的になります。

図5. YOLO11 組立ラインで製品をカウントする例。

要点

リアルタイムの推論は、AIモデルが即座に意思決定を行うことを支援し、これは多くの産業において極めて重要です。事故を回避する自動運転車であれ、医療スキャンを素早く分析する医師であれ、製品の欠陥を検出する工場であれ、迅速で正確なAIの対応は大きな違いを生む。

AIモデルのスピードと効率を向上させることで、実世界でシームレスに動作する、よりスマートで信頼性の高いシステムを構築することができます。テクノロジーが進歩するにつれて、リアルタイムAIソリューションは未来を形成し続け、日常的なプロセスをより速く、より安全で、より効率的にしていくだろう。

詳しくは、GitHub リポジトリをご覧いただき、コミュニティにご参加ください。ソリューションのページでは、自動運転車のAIや 農業のコンピュータビジョンなどの分野におけるイノベーションをご覧いただけます。ライセンスオプションをチェックして、Vision AIプロジェクトを実現しましょう。

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう