ロボット工学や監視などのリアルタイムアプリケーションに理想的な、YOLO のような1段式物体検出器のスピードと効率をご覧ください。
コンピュータビジョン(CV)の分野、特に物体検出の分野では、スピードと効率はしばしば精度と同じくらい重要です。1段物体検出器は、このような優先順位を念頭に置いて設計されており、画像やビデオ内の物体を識別し、位置を特定するための合理的なアプローチを提供します。2ステージの検出器とは異なり、1ステージの検出器は、ニューラルネットワークの1回のフォワードパスでオブジェクトの位置決めと分類を実行するため、非常に高速で、リアルタイムのアプリケーションに適しています。
一段階の物体検出器の特徴は、関心領域を提案するための別ステップを避ける、エンド・ツー・エンドの設計にある。この直接的なアプローチにより、バックボーン・ネットワークによって処理された入力画像の特徴から直接バウンディングボックスとクラス確率を予測することができる。ネットワークは画像全体を一度処理し、検出結果を一段階で出力する。このアーキテクチャはスピードを重視するため、迅速な処理が不可欠なアプリケーションに最適である。一般的な例としては Ultralytics YOLOシリーズがあり、スピードと効率のバランスで知られている(たとえば YOLO11やSSD(Single Shot MultiBox Detector)などがある。)
1段階と2段階の物体検出器の基本的な違いは、その動作パイプラインにある。R-CNNファミリーのような2段階検出器では、まず多数の領域プロポーザル(物体が存在する可能性のある領域)を生成し、次に2つ目の明確な段階でこれらのプロポーザルを分類・改良する。この2段階のプロセスは、一般的に、特に小さな物体に対してより高い精度を達成しますが、計算時間が大幅に増加し、推論速度が低下します。対照的に、1ステージ検出器はこれらのステップを統合し、画像全体にわたってローカライズと分類を同時に実行します。この統合されたアプローチは、大幅なスピードアップをもたらしますが、歴史的にはトレードオフの関係にあり、最新の2段階法に比べて精度がわずかに低くなることがありました。性能はしばしば平均平均精度(mAP)のようなメトリクスを用いて測定されます。
1段式物体検出器のスピードと効率は、迅速な意思決定を必要とする多くの実世界のシナリオで非常に貴重なものとなっている:
ワンステージ・オブジェクト検出器の開発と導入は、以下のようなさまざまなツールやフレームワークによって容易になる:
1ステージ物体検出器の原理、利点、アプリケーションを理解することで、開発者や研究者は、リアルタイムコンピュータビジョンの幅広い課題に対して、その速度を効果的に活用することができます。