用語集

アンカーベースの検出器

アンカーベースのディテクタが、正確なローカライゼーション、スケール適応性、実世界でのアプリケーションにより、物体検出にどのような革命をもたらすかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

アンカーに基づく検出器は、物体検出のタスクに取り組むコンピュータビジョン(CV)において、重要かつ基礎的なアプローチである。これらのモデルは、一般に「アンカー」または「プリオール」と呼ばれる、特定のサイズとアスペクト比を持つ、あらかじめ定義された参照ボックスのセットを用いて動作する。アンカーは画像全体に分布しており、初期推測やテンプレートとして機能するため、特に様々なスケールや形状のアイテムを扱う場合に、モデルがオブジェクトの位置やクラスをより効果的に予測できるようになる。あるバージョンの Ultralytics YOLOファミリーのような多くの影響力のある初期の物体検出モデルは、この技術を利用していた。

アンカー型探知機の仕組み

アンカー・ベースの検出器の基本的なコンセプトは、複数の位置とスケールで、入力画像全体にこれらの事前定義されたアンカー・ボックスの密なグリッドをオーバーレイすることです。各アンカーボックスは、特定のサイズと形状を持つ潜在的なオブジェクトに対応する。1つ目は、アンカーボックスが関連オブジェクトを含むか背景を含むかを分類すること、2つ目は、実際のオブジェクトのバウンディングボックスに正確に一致するようにアンカーの位置と寸法を絞り込むこと(回帰と呼ばれる処理)です。

交通量の多い通りの画像から様々な車両を検出することを考えてみよう。すべてのピクセルグループを分析する代わりに、アンカーベースのモデルはあらかじめ定義されたボックステンプレートを使用する。これらのテンプレート(アンカー)は画像全体に配置される。アンカーが車と大きく重なった場合、モデルはそれを「車」と分類することを学習し、車にぴったり合うようにアンカーの座標とサイズを調整する。道路や建物だけを覆うアンカーは「背景」として分類される。事前に定義された形状によって導かれるこの体系的なアプローチは、物体検出の複雑さを管理するのに役立つ。性能は通常、Intersection over Union (IoU)mean Average Precision (mAP)のようなメトリクスを用いて評価される。

主な特徴と利点

アンカーベースの検出器は、強力な畳み込みニューラルネットワーク(CNN)を バックボーンとして活用することが多く、明確な利点がある:

  • スケールとアスペクト比の変化に対応:事前に定義されたアンカーは、様々な形や大きさを明示的にカバーしているため、これらのモデルは、寸法や向きに関係なくオブジェクトを検出することに本質的に優れています。
  • 構造化された予測:アンカーは、画像全体にわたってオブジェクトのプロポーザルを生成する構造化された方法を提供し、包括的なカバレッジを保証します。
  • 高い再現性:アンカーを介して多数の物体位置候補を生成することで、これらの方法はしばしば高い想起率を達成する。これは、最も関連性の高い物体を見つけるのが得意であることを意味するが、重複をフィルタリングするために非最大抑制(NMS)のような後処理ステップが必要になることもある。
  • 実証された性能: Faster R-CNNや SSD(Single Shot MultiBox Detector)のようなアーキテクチャは、COCOのような標準的なベンチマークデータセットで高い性能を実証しました。

実世界での応用

アンカーベースの探知機は、数多くの実世界のシナリオで成功裏に配備されてきた:

  1. 自律走行車様々なサイズと距離の車両、歩行者、自転車、交通標識を検出することは、安全なナビゲーションのために非常に重要です。アンカーベースの手法は、遠近、大小の物体を確実に識別するのに役立ちます。Waymoのような企業は、ロバストな物体検出に大きく依存しています。自動運転車におけるAIの詳細については、こちらをご覧ください。
  2. 小売分析:店舗では、これらの検知器は棚を監視して商品を識別したり、在庫レベルをチェックしたり、人を検知して顧客の通行パターンを分析したりすることができる。AIを活用した在庫管理などのアプリケーションには、さまざまな製品パッケージのサイズや形状に対応する能力が不可欠です。

アンカーベースのディテクターとアンカーフリーのディテクターの比較

近年、アンカーを使わない探知機が人気のある選択肢として浮上してきた。アンカーに基づくモデル(例えば、 Ultralytics YOLOv5など)とは異なり、アンカーフリーのアプローチは、多くの場合、キーポイント(オブジェクトの中心や角など)を特定したり、点からオブジェクトの境界までの距離を予測したりすることで、オブジェクトの位置やサイズを直接予測する。

主な違いは以下の通り:

  • 複雑さ:アンカーベースのモデルは、アンカーパラメータ(サイズ、比率、スケール)の慎重な設計とチューニングを必要とし、データセットに依存する可能性がある。アンカーを使わないモデルは、検出ヘッドの設計を単純化する。
  • 柔軟性:アンカーを使わない方法は、固定されたアンカーセットではうまく表現できないような、特殊な縦横比や形状のオブジェクトにも適応できる可能性がある。
  • 効率:アンカーを排除することで、モデルが行う必要のある予測数を減らすことができ、推論の高速化や後処理の簡素化につながる可能性がある。

YOLOv4のようなアンカーベースのディテクターは大きな成功を収めたが、以下のような多くの最新のアーキテクチャが存在する。 Ultralytics YOLO11を含む多くの最新アーキテクチャは、シンプルさと効率性の利点を活用するために、アンカーフリーの設計を採用しています。 YOLO11アンカーなし検出の利点を探り、異なるYOLO モデル間の比較を見ることができます。

ツールとトレーニング

アンカーベースであろうとアンカーフリーであろうと、オブジェクト検出モデルの開発とデプロイには、以下のようなフレームワークを使用します。 PyTorchまたは TensorFlowOpenCVのようなライブラリを使用する。Ultralytics HUBのようなプラットフォームは、カスタムモデルのトレーニング、データセットの管理、ソリューションのデプロイのための合理化されたワークフローを提供し、様々なモデルアーキテクチャをサポートします。さらに学習するには、Papers With Codeのようなリソースが最先端のモデルをリストアップし、DeepLearning.AIのようなプラットフォームからのコースが基礎概念をカバーしています。

すべて読む