アンカーベースのディテクタが、正確なローカライゼーション、スケール適応性、実世界でのアプリケーションにより、物体検出にどのような革命をもたらすかをご覧ください。
アンカーに基づく検出器は、物体検出のタスクに取り組むコンピュータビジョン(CV)において、重要かつ基礎的なアプローチである。これらのモデルは、一般に「アンカー」または「プリオール」と呼ばれる、特定のサイズとアスペクト比を持つ、あらかじめ定義された参照ボックスのセットを用いて動作する。アンカーは画像全体に分布しており、初期推測やテンプレートとして機能するため、特に様々なスケールや形状のアイテムを扱う場合に、モデルがオブジェクトの位置やクラスをより効果的に予測できるようになる。あるバージョンの Ultralytics YOLOファミリーのような多くの影響力のある初期の物体検出モデルは、この技術を利用していた。
アンカー・ベースの検出器の基本的なコンセプトは、複数の位置とスケールで、入力画像全体にこれらの事前定義されたアンカー・ボックスの密なグリッドをオーバーレイすることです。各アンカーボックスは、特定のサイズと形状を持つ潜在的なオブジェクトに対応する。1つ目は、アンカーボックスが関連オブジェクトを含むか背景を含むかを分類すること、2つ目は、実際のオブジェクトのバウンディングボックスに正確に一致するようにアンカーの位置と寸法を絞り込むこと(回帰と呼ばれる処理)です。
交通量の多い通りの画像から様々な車両を検出することを考えてみよう。すべてのピクセルグループを分析する代わりに、アンカーベースのモデルはあらかじめ定義されたボックステンプレートを使用する。これらのテンプレート(アンカー)は画像全体に配置される。アンカーが車と大きく重なった場合、モデルはそれを「車」と分類することを学習し、車にぴったり合うようにアンカーの座標とサイズを調整する。道路や建物だけを覆うアンカーは「背景」として分類される。事前に定義された形状によって導かれるこの体系的なアプローチは、物体検出の複雑さを管理するのに役立つ。性能は通常、Intersection over Union (IoU)やmean Average Precision (mAP)のようなメトリクスを用いて評価される。
アンカーベースの検出器は、強力な畳み込みニューラルネットワーク(CNN)を バックボーンとして活用することが多く、明確な利点がある:
アンカーベースの探知機は、数多くの実世界のシナリオで成功裏に配備されてきた:
近年、アンカーを使わない探知機が人気のある選択肢として浮上してきた。アンカーに基づくモデル(例えば、 Ultralytics YOLOv5など)とは異なり、アンカーフリーのアプローチは、多くの場合、キーポイント(オブジェクトの中心や角など)を特定したり、点からオブジェクトの境界までの距離を予測したりすることで、オブジェクトの位置やサイズを直接予測する。
主な違いは以下の通り:
YOLOv4のようなアンカーベースのディテクターは大きな成功を収めたが、以下のような多くの最新のアーキテクチャが存在する。 Ultralytics YOLO11を含む多くの最新アーキテクチャは、シンプルさと効率性の利点を活用するために、アンカーフリーの設計を採用しています。 YOLO11アンカーなし検出の利点を探り、異なるYOLO モデル間の比較を見ることができます。
アンカーベースであろうとアンカーフリーであろうと、オブジェクト検出モデルの開発とデプロイには、以下のようなフレームワークを使用します。 PyTorchまたは TensorFlowやOpenCVのようなライブラリを使用する。Ultralytics HUBのようなプラットフォームは、カスタムモデルのトレーニング、データセットの管理、ソリューションのデプロイのための合理化されたワークフローを提供し、様々なモデルアーキテクチャをサポートします。さらに学習するには、Papers With Codeのようなリソースが最先端のモデルをリストアップし、DeepLearning.AIのようなプラットフォームからのコースが基礎概念をカバーしています。