用語集

二段式物体検出器

複雑なコンピュータビジョンタスクにおける正確な物体検出のための精度を重視したソリューションです。

二段階物体検出器は、画像やビデオ中の物体を、連続した二段階のプロセスによって識別し、位置を特定するコンピュータビジョンモデルの一種である。この方法は、特に物体の位置を正確に特定する精度が高いことで知られているが、推論待ち時間が長くなることが多い。基本的な考え方は、まず潜在的な関心領域を特定し、次にそれらの有望な領域に対してのみ詳細な分類と位置特定を行うことである。

二段階のプロセス

2段階検出器の動作は、異なる連続した段階に分かれている:

  1. 領域提案の生成:最初の段階では、モデルは画像をスキャンして、オブジェクトを含む可能性の高い「関心領域」(ROI)またはプロポーザルとして知られる候補領域の集合を生成する。これは通常領域提案ネットワーク(Region Proposal Network: RPN)と呼ばれるサブモジュールによって達成される。この段階の目的は物体を分類することではなく、単に第2段階が分析する必要のある場所の数を減らすことである。

  2. オブジェクトの分類とバウンディング・ボックスの洗練:第2段階では、提案された各領域は分類ヘッドと回帰ヘッドに渡される。分類ヘッドは、ROI内のオブジェクトのクラス(例えば、"人"、"車"、"犬")を決定するか、背景として指定する。同時に、回帰ヘッドがバウンディングボックスの座標をより正確にオブジェクトにフィットするように改良する。このようにあらかじめ選択された領域を集中的に分析することで、モデルは高い定位精度を達成することができる。

2段検出器と1段検出器の比較

主な違いは、その動作パイプラインにある。2ステージ検出器は、ローカライズと分類のタスクを分離するのに対し、1ステージ物体検出器は、1回のパスで両方のタスクを同時に実行する。

  • 2段検出器(R-CNNファミリーなど):精度を優先。2段階のプロセスにより、各物体候補に対してより詳細な特徴抽出と絞り込みが可能となり、小さな物体や重なり合う物体が多数存在する複雑なシーンでより優れた性能を発揮する。しかし、その複雑さ故に計算量が多く、処理速度が遅くなる。
  • 1段検出器(例:ウルトラリティクスYOLO、SSD):スピードと効率を優先。物体検出を単一の回帰問題として扱うことで、エッジAIデバイスのアプリケーションに適したリアルタイムの推論速度を実現している。YOLO11のような最新の1段階モデルは精度ギャップを大幅に縮めていますが、可能な限り高い精度が要求されるタスクでは、依然として2段階検出器が好まれる場合があります。

著名な建築物

2ステージ検出器の進化は、いくつかの影響力のあるモデルによって特徴づけられてきた:

  • R-CNN(領域ベース畳み込みニューラルネットワーク): 畳み込みニューラルネットワーク(CNN)で領域プロポーザルを使うことを最初に提案した先駆的モデル。選択的探索と呼ばれる外部アルゴリズムを用いてプロポーザルを生成する。
  • 高速R-CNN:画像全体を一度CNNに通すことで計算を共有し、処理を大幅に高速化する改良。
  • R-CNNの高速化:領域提案ネットワーク(RPN)を導入し、領域提案メカニズムをニューラルネットワーク自体に統合することで、エンドツーエンドの深層学習ソリューションを実現。
  • マスクR-CNN インスタンスのセグメンテーションを可能にする、各オブジェクトのピクセルレベルのマスクを出力する第3のブランチを追加することで、Faster R-CNNを拡張します。

実世界での応用

2段検出器は精度が高いため、精度が最も重要な場面で威力を発揮する:

  • 医療画像解析医療スキャン(CT、MRI)で小さな腫瘍、病変、ポリープのような微細な異常を検出するには、診断を助ける高い精度が必要です。正確な位置特定は治療計画に不可欠です。Radiologyなどのジャーナルで、ヘルスケアや研究におけるAIの詳細をご覧ください:人工知能 Brain Tumor datasetのようなデータセットを検索して、関連するタスクを調べることができます。
  • 自律走行歩行者、自転車、他の車両、交通標識(特に小さいものや部分的に隠れているもの)を正確に検知し、位置を特定することは、自動運転車の安全システムにとって極めて重要である。ウェイモのような企業は、堅牢な知覚システムに大きく依存している。
  • 詳細なシーン理解:オブジェクトの相互作用のきめ細かな理解や正確なカウントを必要とするアプリケーションは、より高い精度の恩恵を受けます。
  • 製造における品質管理小さな欠陥を特定したり、複雑なアセンブリの部品配置を確認したりするには、高い精度が要求されることがよくあります。製造業におけるAIについて詳しく知る。

これらのモデルのトレーニングには通常、COCOデータセットのような大規模なラベル付きデータセットと慎重なチューニングが必要です。Ultralyticsは、モデルのトレーニングとパフォーマンスメトリクスの理解のためのリソースを提供します。Ultralyticsは、Ultralytics YOLOのような効率的な1段階モデルに焦点を当てていますが、2段階検出器を理解することは、物体検出の広い分野での貴重なコンテキストを提供します。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク