用語集

オブジェクト検出アーキテクチャ

画像理解のためのAIバックボーンである物体検出アーキテクチャのパワーをご覧ください。種類、ツール、実際のアプリケーションを今すぐ学ぼう!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

物体検出アーキテクチャは、人工知能(AI)システムが視覚情報をどのように解釈するかを支える基本的な構造である。これらの特殊なニューラルネットワークは、画像内の物体を分類する(何が存在するかを識別する)だけでなく、検出された各インスタンスの周囲にバウンディングボックスを描くことによって、物体の位置を正確に特定するようにも設計されている。基本的な機械学習(ML)の概念に精通している人にとって、これらのアーキテクチャを理解することは、最新のコンピュータビジョン(CV)の機能を活用する上で極めて重要である。これらは、機械が人間と同様の方法で世界を「見て」理解することを可能にするシステムのバックボーンを形成している。

コア・コンポーネント

ほとんどの物体検出アーキテクチャは、いくつかの重要なコンポーネントが連携して動作することで構成されている。バックボーンネットワーク(多くの場合、畳み込みニューラルネットワーク(CNN))は、入力画像から最初の特徴抽出を行い、エッジやテクスチャのような低レベルのパターンを識別し、徐々に複雑な特徴を識別する。この概念はFeature Pyramid Networkの論文などで詳しく説明されている。最後に、検出ヘッドがこれらの特徴を使用して、オブジェクトのクラスと位置(バウンディングボックス座標)を予測します。性能は、ローカライズの精度を評価するためのIntersection over Union (IoU)や、全体的な検出品質を評価するためのmean Average Precision (mAP)のようなメトリクスを用いて測定されることが多く、COCOデータセットの評価ページのようなサイトで詳細な説明を見ることができます。

アーキテクチャの種類

物体検出アーキテクチャは、そのアプローチによって大別される:

類似用語との区別

物体検出アーキテクチャを、関連するコンピュータ・ビジョン・タスクと区別することは重要である:

  • 画像の分類画像全体に単一のラベルを割り当てる(例:「猫」「犬」)。画像に何が写っているかをグローバルに識別しますが、特定のオブジェクトがどこにあるかは識別しません。例については、Ultralytics 分類タスクのドキュメントを参照してください。
  • 意味的セグメンテーション画像内の各ピクセルをあらかじめ定義されたカテゴリーに分類する(例えば、車に属するピクセルはすべて「車」とラベル付けされる)。高密度の予測を提供するが、同じオブジェクトクラスの異なるインスタンスを区別しない。
  • インスタンス・セグメンテーション各ピクセルを分類し、個々のオブジェクト・インスタンスを区別することで、セマンティック・セグメンテーションよりも一歩進んだセグメンテーションを行う(例えば、"car 1"、"car 2 "とラベリングする)。これは、オブジェクト検出とセマンティックセグメンテーションを組み合わせたものである。詳細については、Ultralytics セグメンテーションタスクのドキュメントを参照してください。

実世界での応用

物体検出アーキテクチャは、さまざまな分野にわたる数多くのAIアプリケーションに力を与えている:

ツールとテクノロジー

このようなアーキテクチャに基づくモデルを開発・展開するには、多くの場合、専用のツールやフレームワークが必要になる:

すべて読む