ロボットや監視などのリアルタイム・アプリケーションに理想的な、YOLOのような1段式物体検出器のスピードと効率をご覧ください。
1ステージ物体検出器は、コンピュータビジョンにおけるスピードと効率性のために設計されたディープラーニングモデルのクラスである。このモデルは、オブジェクトのローカライズと分類を、ニューラルネットワークの単一の統一されたパスで実行する。これは、タスクを2つの異なるステップに分割する、より複雑な対応物である2ステージ物体検出器とは対照的である。物体検出を単純な回帰問題として扱うことで、1ステージモデルは画像特徴から直接バウンディングボックスとクラス確率を予測し、非常に高速でリアルタイム推論を必要とするアプリケーションに適している。
ワンステージ検出器は、1つの畳み込みニューラルネットワーク(CNN)を通して画像全体を一度に処理する。このネットワークのアーキテクチャは、いくつかのタスクを同時に実行するように設計されている。まず、ネットワークのバックボーンが 特徴抽出を行い、さまざまなスケールで入力画像の豊富な表現を作成する。これらの特徴は、次に特殊な検出ヘッドに供給される。
このヘッドは、バウンディングボックスのセット、オブジェクトの存在を示す各ボックスの信頼度スコア、各オブジェクトが特定のクラスに属する確率を予測する役割を担っている。この全プロセスは1回のフォワードパスで行われ、これが高速化の鍵となっている。その後、非最大抑制(NMS)のような技術を使用して、冗長で重複する検出をフィルタリングし、最終的な出力を生成します。モデルは、ローカリゼーション損失(バウンディングボックスがどれだけ正確か)と分類損失(クラス予測がどれだけ正確か)を組み合わせた特殊な損失関数を使用してトレーニングされる。
主な違いは手法にある。1段式ディテクターはスピードとシンプルさを追求し、2段式ディテクターは正確さを優先しているが、この違いは新しいモデルほど顕著ではなくなってきている。
影響力のあるワンステージ・アーキテクチャがいくつか開発されており、それぞれがユニークな貢献をしている:
1段検出器のスピードと効率は、AIを駆使した数多くのアプリケーションに不可欠なものとなっている:
ワンステージ検出器の主な利点は、NVIDIA Jetsonや Raspberry Piのような低消費電力のエッジAIデバイスを含む様々なハードウェア上でリアルタイムのオブジェクト検出を可能にする、その驚異的なスピードです。また、よりシンプルなエンド・ツー・エンドのアーキテクチャにより、PyTorchや TensorFlowのようなフレームワークを使った学習やデプロイも容易になります。
歴史的に、主な限界は、2段検出器と比較して精度が低いことであり、特に非常に小さい物体や大きく隠蔽された物体を扱う場合に顕著であった。しかし、YOLO11のようなモデルに見られるように、モデルアーキテクチャとトレーニング技術における最近の進歩は、この性能差を大幅に縮め、幅広いコンピュータビジョンタスクに速度と高精度の強力な組み合わせを提供しています。Ultralytics HUBのようなプラットフォームは、特定のニーズに合わせてカスタムモデルをトレーニングするプロセスをさらに簡素化します。