二段階物体検出器は、コンピュータビジョン(CV)における物体検出アーキテクチャのカテゴリを表し、検出プロセスを2つの異なる段階に分けることで精度を優先する。これらの検出器は、まず画像内で物体が存在する可能性のある関心領域(ROI)を特定し、次に第2段階で、これらの提案された領域内の物体を分類し、その位置(バウンディングボックス)を絞り込むように設計されている。この方法論的なアプローチにより、各物体の可能性をより詳細に分析することができ、特に複雑なシナリオや小さな物体を検出する場合に、高い検出精度につながることが多い。
二段式検出器の仕組み
2段階検出器の動作には、ディープラーニング技術、特に畳み込みニューラルネットワーク(CNN)を活用した逐次プロセスが含まれる。
- 第1ステージ領域提案:これはFaster R-CNNモデルによって普及した概念である。RPNは(ResNetのようなバックボーンCNNによって抽出された)画像の特徴をスキャンし、オブジェクトを含む可能性の高い候補領域のセットを提案する。これらの提案は基本的に、潜在的なオブジェクトの周りの粗いバウンディングボックスである。
- ステージ2:分類と絞り込み:提案された領域(RoI)は第2ステージに渡される。各RoIについて、特徴が抽出され(多くの場合、RoIPoolやRoIAlignのような技術を使用)、ニューラルネットワーク(NN)が2つのタスクを実行する:RoI内のオブジェクトを分類し(例えば、「車」、「人」、「背景」)、より正確にオブジェクトにフィットするようにバウンディングボックスの座標を洗練する。著名な例としては、R-CNNファミリー(R-CNNとは何か、Fast R-CNN、Faster R-CNN)や、このアプローチをインスタンス分割を行うように拡張したマスクR-CNNがある。
メリットとデメリット
2段式検出器には明確な利点があるが、トレードオフもある:
利点がある:
- 高い精度:プロポーザルの生成と分類/精緻化を分離することで、より集中的な処理が可能になり、特に平均平均精度(mAP)のようなメトリクスで測定される精度が一般的に高くなります。
- より良いローカリゼーション:絞り込み段階は、より正確なバウンディングボックスの予測につながることが多い。
- 小さな物体に有効:1段の検出器よりも、2段目に焦点が合っているため、画像内の小さな物体を識別するのに有効です。
デメリット
- 遅い速度:逐次的な2段階プロセスは、本質的に計算時間を必要とするため、1段階法に比べて推論の待ち時間が短くなる。このため、リアルタイム推論を必要とするアプリケーションには不向きである。
- 複雑さ:一般的に、アーキテクチャの実装やトレーニングはより複雑になる。
- 高い計算コスト:通常、学習と推論の両方に、より多くの計算リソース(GPUなど)を必要とする。
段検出器との比較
主な違いは、アーキテクチャとアプローチにある。例えば Ultralytics YOLOシリーズ(例えば YOLOv8, YOLO11やSSDは、ネットワークを1回通過するだけで、物体の定位と分類を同時に行う。そのため、著しく高速化される。1段検出器と2段検出器のどちらを選ぶかは、スピードを優先するか(1段検出器)、最大精度を優先するか(2段検出器)というトレードオフを伴うことが多い。1段検出器は精度のギャップを大幅に縮めていますが、2段検出器は最高の精度が要求されるシナリオで優位性を保つことがよくあります。
実世界での応用
2段式検出器は高精度であるため、精度が最も重要視されるアプリケーションで威力を発揮する: