用語集

検出ヘッド

物体検出における検出ヘッドの重要な役割を発見し、フィーチャーマップを改良して物体の位置とクラスを正確に特定します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

物体検出モデルのアーキテクチャにおいて、検出ヘッドは通常ネットワークパイプラインの最後に位置する重要なコンポーネントである。バックボーン(初期特徴を抽出する)、ネック(これらの特徴を集約し精緻化する)に続き、検出ヘッドは、特徴マップとして知られる処理された画像情報を受け取り、最終的な予測に変換する。これは基本的にディープラーニングモデルの意思決定ユニットとして機能し、どのようなオブジェクトが存在し、バウンディングボックスによって どこに位置するかを特定し、各検出に信頼スコアを割り当てる。

機能と操作

検出ヘッドは、ニューラルネットワークの先行層によって生成された豊富で抽象的な特徴を処理する。これらの特徴は、入力画像内の潜在的なオブジェクトに関連する複雑なパターン、テクスチャ、形状をエンコードする。検出ヘッドは通常、畳み込み層を含む独自の層セットを使用して、主に2つのタスクを実行する:

  1. 分類:検出された各オブジェクトのクラスラベルを予測する(例:「人」、「車」、「犬」)。これは多くの場合、各クラスの確率を出力するソフトマックスまたは類似の活性化関数を頂点とする技術を用いて達成される。
  2. ローカライゼーション(回帰):検出された各オブジェクトを囲むバウンディングボックスの正確な座標を予測する。これは回帰問題として扱われる。

高度なモデル Ultralytics YOLOのような高度なモデルは、これらのタスクを迅速に実行するように設計された非常に効率的な検出ヘッドを内蔵しており、多くのアプリケーションにとって重要なリアルタイム推論を可能にします。予測値は、重複検出を除去するために非最大抑制(NMS)のような技術を用いて後処理されることが多い。

主要コンポーネントとバリエーション

検出ヘッドの設計は、特定の物体検出アーキテクチャによって大きく異なる。主なバリエーションは以下の通り:

  • アンカーベースとアンカーフリー:
    • Faster R-CNNや以前のYOLO ようなモデルで一般的なアンカー・ベースの検出器は、特徴マップ上のさまざまな位置にある、さまざまなサイズと縦横比を持つ、あらかじめ定義されたアンカー・ボックスのセットに依存する。頭部はこれらのアンカーを精緻化するためのオフセットを予測し、その中で物体を分類する。
    • アンカーフリー検出器は、次のようなモデルで使用されています。 YOLO11やFCOSのようなモデルで使用されるアンカーフリー検出器は、事前に定義されたアンカーなしで、中心点や寸法のようなオブジェクトの特性を直接予測します。このアプローチは、アンカーフリー検出の利点で強調したように、設計を簡素化し、汎化性を向上させる可能性があります。
  • 結合ヘッドと非結合ヘッド:デザインによっては、分類と回帰の両方に単一のレイヤーセット(結合ヘッド)を使用するものもあれば、各タスクに別々のブランチ(非結合ヘッド)を使用するものもあり、精度が向上することもある。Ultralytics ヘッドモジュールは、APIドキュメントでさらに詳しく調べることができます。

他のコンポーネントやタスクとの比較

検出ヘッドを理解するには、コンピュータビジョン(CV)モデルの他の部分や関連するタスクと区別する必要がある:

  • バックボーン: バックボーンネットワーク(ResNet、VGGなど)は、入力画像からの最初の特徴抽出を担当し、低レベルのエッジから高レベルのオブジェクト部分までの階層的特徴を学習する。
  • 首:背骨と頭の間に位置する首は、多くの場合、背骨の複数のスケールから特徴を集約し(Feature Pyramid Networksのような技術を使用)、さまざまなサイズのオブジェクトを検出するための豊かなコンテキストを提供する。
  • 画像分類:物体検出とは異なり、画像分類では、ローカライズせずに画像全体に単一のラベルを割り当てる。
  • セグメンテーションタスク: セマンティック・セグメンテーションは画像内の各ピクセルを分類するが、インスタンス・セグメンテーションはさらに、同じオブジェクト・クラスの異なるインスタンスをピクセル・レベルで区別する。オブジェクト検出は、ピクセルマスクではなくバウンディングボックスを提供します。

実世界での応用

検出ヘッドの有効性は、物体検出で構築された数多くのAIアプリケーションの性能に直接影響する:

  1. 自律走行:歩行者、他の車両、交通標識、障害物をリアルタイムで識別し、位置を特定することで、安全なナビゲーションを可能にする ウェイモのような企業はこの技術に大きく依存している
  2. セキュリティと監視 セキュリティシステムにおいて、検出ヘッドは、ビデオフィード内の不正な人物、放置された物体、または特定のイベントを識別することにより、自動監視を可能にします。これは、Ultralytics セキュリティアラームシステムガイドのようなアプリケーションの基礎を形成します。
  3. 小売分析: 在庫管理、棚監視、顧客行動分析に使用。
  4. 医療画像診断:スキャン画像から腫瘍や骨折などの異常を検出し、医療画像分析に貢献することで、放射線科医を支援する。
  5. 製造業組立ラインにおける製品の欠陥を自動検出することで、製造における品質管理を可能にする。

最新のオブジェクト検出モデル YOLOv8YOLO11のような最新の物体検出モデルは PyTorchまたは TensorFlowのようなフレームワークを使用して構築されることが多く、COCOのようなベンチマークデータセット上で速度と精度の両方に最適化された洗練された検出ヘッドを備えています。これらのモデルのトレーニングとデプロイは、Ultralytics HUBのようなプラットフォームによって容易になり、ユーザーは特定のニーズに合わせて強力な検出機能を活用することができます。パフォーマンスの評価には、しばしばmAPや IoUのようなメトリクスが使用されますが、これはYOLO パフォーマンスメトリクスガイドで詳しく説明されています。

すべて読む