用語集

オブジェクト検出アーキテクチャ

画像理解のためのAIバックボーンである物体検出アーキテクチャのパワーをご覧ください。種類、ツール、実際のアプリケーションを今すぐ学ぼう!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

物体検出アーキテクチャは、人工知能(AI)システムが視覚情報をどのように解釈するかを支える基本的な構造である。これらの特殊なニューラルネットワークは、画像内の物体を分類する(何が存在するかを識別する)だけでなく、検出された各インスタンスの周囲にバウンディングボックスを描くことによって、物体の位置を正確に特定するようにも設計されている。基本的な機械学習の概念に精通している人にとって、これらのアーキテクチャを理解することは、最新のコンピュータビジョンの能力を活用する上で極めて重要である。

コア・コンポーネント

ほとんどの物体検出アーキテクチャは、いくつかの重要なコンポーネントが連携して動作することで構成されている。バックボーン・ネットワーク(多くの場合、畳み込みニューラルネットワーク(CNN))は、入力画像から最初の特徴抽出を行い、エッジやテクスチャのような低レベルのパターンを識別し、徐々に複雑な特徴を識別する。ネック "コンポーネントは、バックボーンの異なるステージからの特徴を集約し、様々なスケールのオブジェクトを検出するのに適した、より豊かな表現を作成する。最後に、検出ヘッドは、これらの特徴を使用して、オブジェクトのクラスと位置(バウンディングボックス座標)を予測する。性能は、ローカライゼーションの精度を評価するために、Intersection over Union (IoU)のようなメトリクスを用いて測定されることが多い。

アーキテクチャの種類

物体検出アーキテクチャは、そのアプローチによって大別される:

類似用語との区別

物体検出アーキテクチャを、関連するコンピュータ・ビジョン・タスクと区別することは重要である:

  • 画像の分類画像の主な被写体(例えば「猫」)を識別するが、その位置は特定しない。物体検出は、どのような物体がどこに存在するかを教えてくれる。
  • セマンティックセグメンテーション画像内のすべてのピクセルをあらかじめ定義されたカテゴリ(道路、車、空など)に分類し、個々のオブジェクトインスタンスを区別することなく、ピクセルレベルで詳細に理解する。
  • インスタンス・セグメンテーション個々のオブジェクトインスタンスを識別し、それぞれにピクセルレベルのマスクを提供することで、オブジェクト検出とセマンティックセグメンテーションの両方よりも一歩進んだ処理を行う。

実世界での応用

物体検出アーキテクチャは、さまざまな分野にわたる数多くのAIアプリケーションに力を与えている:

  1. 自律走行車自動運転車が他の車両、歩行者、自転車、交通信号などを検知して環境を認識し、安全なナビゲーションを可能にするために不可欠である(自動運転車のAIブログ参照)。
  2. 医療画像解析X線、CTスキャン、MRIの腫瘍、病変、骨折などの異常を自動的に検出して位置を特定することで、放射線科医を支援し、早期の診断につながる可能性がある(ヘルスケアにおけるAIについて調べる)。
  3. セキュリティと監視:侵入の検出、特定の個人の識別(顔認識)、ビデオフィードの対象物の追跡による監視の自動化(セキュリティアラームシステムガイドを参照)。
  4. リテール・アナリティクス:棚在庫の監視(在庫管理のためのAI)、顧客動線の分析、レジシステムの強化。

ツールとテクノロジー

このようなアーキテクチャに基づくモデルを開発・展開するには、多くの場合、専用のツールやフレームワークが必要になる:

  • Ultralytics YOLO:速度と精度のバランスで知られる人気のモデル・ファミリーと付随するフレームワークで、リアルタイム・アプリケーションに広く使用されています。YOLO11 YOLOv10のように、異なるYOLO バージョンを比較することができます。
  • Ultralytics HUB YOLO モデルのトレーニング、管理、デプロイのプロセスを、大規模なコーディングなしで簡素化するプラットフォーム。
  • ディープラーニングのフレームワーク以下のようなライブラリ PyTorchTensorFlowなどのライブラリは、これらの複雑なニューラルネットワークを作成し、トレーニングするためのビルディングブロックを提供する。
  • OpenCV:前処理および後処理タスクの検出モデルとともによく使用される、膨大なコンピュータビジョン関数を提供する重要なオープンソースライブラリ
すべて読む