アンカー・ベース検出器は、コンピュータ・ビジョンでよく使われる物体検出モデルの一種である。このモデルは、画像内の物体の位置とクラスを予測するために、「アンカー」として知られるあらかじめ定義されたボックスを利用する。これらのアンカーは参照点として機能し、モデルが潜在的なオブジェクトの提案を生成するのに役立ちます。アンカーは特に様々な大きさや形の物体を識別するのに有効で、多くの物体検出アーキテクチャでよく使われる。
アンカーベースの検出器は、画像上をスライドする異なるスケールとアスペクト比のアンカーボックスのグリッドを使用して動作します。これらのアンカーボックスは、物体の大きさや形状を幅広くカバーするように戦略的に配置されている。学習プロセスにおいて、モデルは各アンカーボックスが物体を含むか背景を含むかを分類するように学習する。また、物体を正確に検出するために、これらのアンカーボックスの位置を改良する。この精緻化には、アンカーボックスの寸法と位置を調整して、オブジェクトのグランドトゥルースのバウンディングボックスによりよく一致させることが含まれる。最終的な出力はバウンディングボックスの集合で、それぞれに対応するクラスラベルと信頼スコアが付き、オブジェクトが存在する可能性を示す。
基本的な機械学習の概念に慣れているユーザーのために、広い駐車場でさまざまなタイプの車両を検索しているところを想像してみよう。エリア全体をランダムにスキャンするのではなく、様々なサイズと形状の事前定義された検索エリア(アンカー)を使用する。これらのサーチエリアを駐車場全体に移動させ、それぞれに車両があるかどうかをチェックします。サーチエリアが車両にぴったり合う場合は、そのサイズと位置を調整して車両にぴったり合うようにする。この方法で、駐車場内のすべての車両を素早く正確に見つけることができます。
アンカーベースの検出器には、幅広い用途に適したいくつかの利点がある:
アンカー・ベースの検出器は効果的であるが、アンカー・フリーの検出器と比べるといくつかの制限がある。アンカー・フリー検出器は、あらかじめ定義されたアンカー・ボックスを使用せずに、オブジェクトの位置を直接予測します。主な違いは以下の通りです:
アンカーなし検知の利点について詳しくは、 Ultralytics YOLO11 アンカーなし検知の利点についての記事をご覧ください。
アンカーベースの検出器は、その堅牢性と適応性により、さまざまな産業で広く使用されています。特に、物体が異なるスケールやアスペクト比で現れる可能性があるシナリオで効果的です。ここでは、実際のアプリケーションの具体例を2つご紹介します:
いくつかの一般的な物体検出モデルは、アンカーベースのアプローチを利用している。YOLOv4のような Ultralytics YOLOYOLOv4などがよく知られたアンカーベース検出器である。また、アンカーを用いて領域提案を生成するRPN(Region Proposal Network)の概念を導入したFaster R-CNNや、異なるスケールの複数の特徴マップを用いて物体を検出するSSD(Single Shot MultiBox Detector)(出典)なども有名である。これらのモデルは物体検出の分野におけるベンチマークとなり、新しいアーキテクチャの開発に影響を与え続けている。