用語集

オブジェクト検出アーキテクチャ

画像理解のためのAIバックボーンである物体検出アーキテクチャのパワーをご覧ください。種類、ツール、実際のアプリケーションを今すぐ学ぶ!

物体検出アーキテクチャは、物体検出を行うディープラーニングモデルの基礎となる設計図である。このコンピュータ・ビジョン(CV)タスクは、画像や動画内の物体の存在と位置を特定するもので、通常は物体の周囲にバウンディング・ボックスを描き、クラス・ラベルを割り当てる。アーキテクチャは、視覚情報をどのように処理し、予測を行うかなど、モデルの構造を定義する。アーキテクチャの選択は、モデルの速度、精度、および計算要件に直接影響するため、非常に重要です。

物体検出アーキテクチャの仕組み

最近のほとんどの物体検出アーキテクチャは、3つの主要コンポーネントで構成され、順番に動作する:

  • バックボーンこれは畳み込みニューラルネットワーク(CNN)で、多くの場合、ImageNetのような大規模な画像分類データセットで事前に訓練されている。その主な役割は特徴抽出器として機能し、入力画像を階層的な視覚情報をキャプチャする一連の特徴マップに変換することである。一般的な基幹ネットワークには、ResNetやCSPDarknetがあり、多くのYOLOモデルで使用されています。CNNの基礎については、IBMの詳細な概要などで学ぶことができる。
  • 首:背骨と頭部の間に位置するオプションのコンポーネント。バックボーンによって生成された特徴マップを集約し、改良する役割を果たす。多くの場合、さまざまなスケールの特徴を組み合わせて、さまざまなサイズのオブジェクトの検出を向上させる。例えば、フィーチャーピラミッドネットワーク(FPN)などがある。
  • 検出ヘッドヘッドは、予測を行う最終コンポーネントである。ネックから(またはバックボーンから直接)処理された特徴マップを受け取り、検出された各オブジェクトのクラス確率とバウンディングボックス座標を出力する。

アーキテクチャの種類

物体検出アーキテクチャは、予測へのアプローチに基づいて大まかに分類され、速度と精度のトレードオフにつながります。これらのトレードオフを実際に見るために、詳細なモデル比較を調べることができます。

  • 二段階物体検出器R-CNNファミリーのようなこれらのモデルは、まず候補となる物体領域のセット(領域提案)を特定し、次に各領域を分類する。この2段階のプロセスは高い精度を達成できるが、しばしば時間がかかる。
  • 1段階の物体検出 Ultralytics YOLO(YouOnly Look Once)ファミリーのようなアーキテクチャは、物体検出を単一の回帰問題として扱います。それらは、1回のパスで完全な画像から直接バウンディングボックスとクラス確率を予測し、リアルタイムの推論を可能にします。
  • アンカーフリーディテクター UltralyticsのYOLO11のようなアンカーフリーアーキテクチャは、アンカーボックスの定義が不要です。これにより学習プロセスが簡素化され、より高速で効率的なモデルになることが多い。

実世界での応用

物体検出アーキテクチャは、さまざまな分野にわたる数多くのAIアプリケーションに力を与えている:

ツールとテクノロジー

このようなアーキテクチャに基づいたモデルを開発し、展開するには、しばしば特別なツールやフレームワークが必要になる:

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク