アンカーベースのディテクタが、正確なローカライゼーション、スケール適応性、実世界でのアプリケーションにより、物体検出にどのような革命をもたらすかをご覧ください。
アンカーに基づく検出器は、コンピュータビジョンにおける 物体検出モデルの基礎的なクラスである。これらのモデルは、アンカーボックスとして知られる、あらかじめ定義されたボックスのセットを用いて動作し、画像内のオブジェクトを識別し、位置を特定する。アンカーボックスは基本的に、画像全体にタイル状に配置された様々なサイズと縦横比を持つテンプレートのグリッドである。モデルは、オブジェクトの存在を示す信頼度スコアとともに、オブジェクトのグランドトゥルースのバウンディングボックスに一致するように、これらのアンカーをどのようにシフトし、スケーリングするかを予測する。このアプローチは、物体を見つける問題を、これらの固定アンカーに対する回帰と分類のタスクに変えることによって単純化する。
アンカーベースのアーキテクチャの顕著な例としては、Faster R-CNNのようなR-CNNファミリー、SSD(Single Shot MultiBox Detector)のような初期のシングルステージ検出器、大成功を収めたUltralytics YOLOv5を含む多くのYOLOモデルなどがある。
アンカー・ベースの検出の核となる考え方は、事前に定義された参照ボックスのセットを出発点として使用することである。モデルの学習過程において、検出器は各アンカーボックスに対して2つの主要なタスクを実行することを学習する:
これらの予測は、バックボーンによって抽出された画像特徴を処理した後、モデルの検出ヘッドによって行われる。1つの物体が複数のアンカーボックスで検出されることがあるため、非最大抑制(NMS)と呼ばれる後処理ステップを使用して、冗長な検出をフィルタリングし、最も適合するボックスのみを保持します。これらのモデルの性能は、平均平均精度(mAP)やIntersection over Union(IoU)などのメトリクスを用いて評価されることが多い。
近年、アンカーを使わない検出器が、よく使われる代替手段として台頭してきた。アンカーベースのモデルとは異なり、アンカーフリーのアプローチは物体の位置や大きさを直接予測する。多くの場合、キーポイント(物体の中心や角など)を特定したり、点から物体の境界までの距離を予測したりすることで、あらかじめ定義されたアンカー形状を必要としない。
主な違いは以下の通り:
YOLOv4のようなアンカーベースの検出器は大きな成功を収めましたが、Ultralytics YOLO11を含む多くの最新のアーキテクチャは、シンプルさと効率性の利点を活用するために、アンカーフリーの設計を採用しています。YOLO11のアンカーなし検出の利点を探り、異なるYOLOモデル間の比較を見ることができます。
アンカーベースの検出器は、対象物の形状やサイズが比較的標準的な様々なアプリケーションで広く使用されています。
アンカーベースであれアンカーフリーであれ、物体検出モデルの開発とデプロイには、PyTorchや TensorFlowのようなフレームワークとOpenCVのようなライブラリが必要です。Ultralytics HUBのようなプラットフォームは、カスタムモデルのトレーニング、データセットの管理、ソリューションのデプロイのための合理化されたワークフローを提供し、様々なモデルアーキテクチャをサポートします。さらに学習するには、Papers With Codeのようなリソースが最先端のモデルをリストアップし、DeepLearning.AIのようなプラットフォームからのコースが基礎概念をカバーしています。