物体検出における検出ヘッドの重要な役割を発見し、フィーチャーマップを改良して物体の位置とクラスを正確に特定します。
物体検出モデルのアーキテクチャにおいて、検出ヘッドは通常ネットワークパイプラインの最後に位置する重要なコンポーネントである。バックボーン(初期特徴を抽出する)、ネック(これらの特徴を集約し精緻化する)に続き、検出ヘッドは、特徴マップとして知られる処理された画像情報を受け取り、最終的な予測に変換する。これは基本的にディープラーニングモデルの意思決定ユニットとして機能し、どのようなオブジェクトが存在し、バウンディングボックスによって どこに位置するかを特定し、各検出に信頼スコアを割り当てる。
検出ヘッドは、ニューラルネットワークの先行層によって生成された豊富で抽象的な特徴を処理する。これらの特徴は、入力画像内の潜在的なオブジェクトに関連する複雑なパターン、テクスチャ、形状をエンコードする。検出ヘッドは通常、畳み込み層を含む独自の層セットを使用して、主に2つのタスクを実行する:
高度なモデル Ultralytics YOLOのような高度なモデルは、これらのタスクを迅速に実行するように設計された非常に効率的な検出ヘッドを内蔵しており、多くのアプリケーションにとって重要なリアルタイム推論を可能にします。予測値は、重複検出を除去するために非最大抑制(NMS)のような技術を用いて後処理されることが多い。
検出ヘッドの設計は、特定の物体検出アーキテクチャによって大きく異なる。主なバリエーションは以下の通り:
検出ヘッドを理解するには、コンピュータビジョン(CV)モデルの他の部分や関連するタスクと区別する必要がある:
検出ヘッドの有効性は、物体検出で構築された数多くのAIアプリケーションの性能に直接影響する:
最新のオブジェクト検出モデル YOLOv8や YOLO11のような最新の物体検出モデルは PyTorchまたは TensorFlowのようなフレームワークを使用して構築されることが多く、COCOのようなベンチマークデータセット上で速度と精度の両方に最適化された洗練された検出ヘッドを備えています。これらのモデルのトレーニングとデプロイは、Ultralytics HUBのようなプラットフォームによって容易になり、ユーザーは特定のニーズに合わせて強力な検出機能を活用することができます。パフォーマンスの評価には、しばしばmAPや IoUのようなメトリクスが使用されますが、これはYOLO パフォーマンスメトリクスガイドで詳しく説明されています。