用語集

二段式物体検出器

領域提案、分類、バウンディングボックスの精密化により、2段階の物体検出器がどのようにして高精度の物体検出を実現しているかを学ぶ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

二段階物体検出器とは、コンピュータビジョンにおける物体検出モデルの一種であり、2つの異なるステップで検出処理を行う。最初に、これらのモデルは、画像中の物体が存在する可能性のある領域である、領域提案のセットを生成する。その後、提案された各領域を分類し、そのバウンディングボックス座標を改良して、物体を正確に識別し、位置を特定する。この2段階のアプローチにより、特に物体のスケール、向き、外観が変化するような複雑なシナリオにおいて、物体検出タスクの精度を高めることができる。

二段式物体検知器の仕組み

2段階物体検出器の動作は、領域提案と領域分類の2つの主要なフェーズに分けることができる。

領域の提案:最初の段階では、モデルは画像内の潜在的なオブジェクトの位置を特定する。これは通常、選択的探索(Selective Search)のようなアルゴリズムや、最近では領域提案ネットワーク(Region Proposal Networks:RPN)を使って行われる。RPNはニューラルネットワークの一種で、画像をスキャンしてオブジェクトが含まれそうな領域を特定し、その領域の周囲にバウンディングボックスを生成する。

領域の分類:第二段階では、提案された領域内のオブジェクトを分類し、より正確にフィットするようにバウンディングボックスを調整する。各提案領域は畳み込みニューラルネットワーク(CNN)に通され、特徴を抽出し、それを使ってオブジェクトを分類し、バウンディングボックスの座標を調整する。この段階により、検出された各物体が画像内で正確にラベル付けされ、位置が特定されることが保証される。

主要コンポーネントとテクニック

2段式物体検出器の機能には、いくつかの重要なコンポーネントと技術が不可欠である:

リージョン・プロポーザル・ネットワーク(RPN):RPNは高品質な領域提案を効率的に生成するために重要である。RPNは、CNNが出力した特徴マップ上で小さなネットワークをスライドさせ、各位置にオブジェクトが存在する確率を予測し、バウンディングボックスの調整を提案することで機能する。

特徴抽出特徴抽出は、提案された領域から意味のある特徴を抽出するために、ResNetやVGGのようなCNNを使う。これらの特徴は、その後の分類とバウンディング・ボックス回帰タスクに不可欠である。

バウンディングボックス回帰:提案された領域内でオブジェクトを分類した後、バウンディングボックス回帰がバウンディングボックス座標を微調整するために使用され、検出されたオブジェクトの周りにしっかりとフィットするようにする。

1段式物体検出器との比較

2段式物体検出器は、Ultralytics YOLO (You Only Look Once)のような1段式物体検出器とよく比較される。1段階検出器はネットワークを1回通過するだけで物体検出を行うため、より高速でリアルタイムのアプリケーションに適していますが、2段階検出器は2段階の処理を行うため、一般的に精度が高くなります。

精度:2段検出器は、2段目により提案された各領域の詳細な分析と改良が可能になるため、一般的に高い精度を達成する。これは、オブジェクトが重なっていたり、背景が複雑な場合に特に有効です。

スピード:のような1段検出器は、1回の前方パスで画像全体を処理するため、より高速である。 Ultralytics YOLOのような1段検出器は、1回のフォワードパスで画像全体を処理するため、より高速である。2段検出は、より正確ですが、各領域の提案を別々に処理するステップが追加されるため、遅くなります。

実世界での応用

2段式物体検出器は、高精度が最優先される実世界のさまざまなアプリケーションで使用されている:

自律走行車 自動運転車では、歩行者、車両、その他の物体を正確に検知することが、安全なナビゲーションに不可欠です。2段階の検出器を使用することで、すべての潜在的な危険を正確に識別し、位置を特定することができます。自動運転技術におけるAIの活用について詳しくはこちら。

メディカルイメージング 医療分野では、X線やMRIスキャンなどの医療画像を解析し、腫瘍や骨折などの異常を検出するために2ステージ検出器が使用されています。これらの検出器の高い精度は、信頼性の高い診断と治療計画に不可欠です。AIと放射線学についてさらに詳しく

一般的な2段階物体検出モデル

2段階検出の枠組みに基づいて、いくつかの有力なモデルが開発されてきた:

R-CNN (CNN特徴を持つリージョン):このカテゴリの先駆的なモデルの1つであるR-CNNは、領域提案を生成するために選択的探索を使用し、各領域を分類するためにCNNを使用する。

高速R-CNN:R-CNNの改良版であるFast R-CNNは、画像全体をCNNに一度通して処理した後、各領域の提案に対して特徴を抽出するため、処理が大幅に高速化される。

より高速なR-CNN:このモデルは、領域提案生成と検出ネットワークを統合した領域提案ネットワーク(RPN)を導入し、速度と精度の両方をさらに向上させている。

特定のオブジェクト検出アーキテクチャの詳細については、オブジェクト検出に関するウィキペディアのページなどのリソースを参照できる。

すべて読む