用語集

1段式物体検出器

ロボット工学や監視などのリアルタイムアプリケーションに理想的な、YOLO のような1段式物体検出器のスピードと効率をご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

コンピュータ・ビジョン(CV)の分野、特に物体検出の分野では、スピードと効率はしばしば精度と同じくらい重要である。1ステージ物体検出器は、このような優先順位を念頭に置いて設計されたディープラーニングモデルのクラスであり、画像や動画内の物体を識別し、位置を特定するための合理的なアプローチを提供する。2ステージの同等品とは異なり、1ステージ検出器は、ニューラルネットワークの1回のフォワードパスで、オブジェクトの位置特定(オブジェクトがどこにあるかを決定する)と分類(オブジェクトがであるかを決定する)を実行します。この設計により、大幅に高速化され、リアルタイムの推論アプリケーションに非常に適しています。

1段検出器の基本原理

一段階の物体検出は、関心領域(物体を含みそうな領域)を提案するための、計算量の多い別個のステップを避ける、エンド・ツー・エンドの設計が特徴である。その代わりに、物体検出を回帰問題として扱います。モデルは入力画像全体を一旦処理し、通常、特徴抽出のためにバックボーン・ネットワーク(多くの場合、畳み込みニューラルネットワークまたはCNN)を使用する。次にこれらの特徴は、画像グリッドまたは特徴マップの位置全体にわたって、バウンディングボックス座標、クラス確率、および信頼度スコアを同時に予測する検出ヘッドに直接供給される。このシングルパスアーキテクチャはスピードを重視するため、迅速な処理が不可欠なアプリケーションに最適です。一般的な例としては Ultralytics YOLOシリーズがあり、スピードと精度のバランスで知られている(例えば YOLO11Google Researchが開発したSSD(Single Shot MultiBox Detector)などがある。最新の1段検出器の多くもアンカーフリーであり、旧来のアンカーベースの手法と比較してパイプラインをさらに単純化しています。

2段式検出器との違い

1段物体検出器と2段物体検出器の基本的な違いは、その動作パイプラインにある。有力なR-CNN(Region-based CNN)やFaster R-CNNのようなその後継のような2段階検出器では、まず、選択的探索(Selective Search)や領域提案ネットワーク(Region Proposal Network:RPN)のような手法を用いて、多数の領域提案を生成する。2番目の明確な段階で、これらの提案は分類され、それらの境界ボックスは洗練される。この2段階のプロセスは、一般的に、特に小さいオブジェクトや重なり合うオブジェクトの検出において、より高い精度を達成するが、計算時間が大幅に増加し、推論速度が低下するという代償を伴う。

対照的に、1ステージ検出器はこれらのステップを統合し、画像全体にわたってローカライズと分類を同時に一度に実行します。この統一されたアプローチにより、スピードが大幅に向上します。歴史的に、このスピードの利点はトレードオフの関係にあり、特にローカライズの精度に関して、最新の2段法に比べて精度が若干低くなる可能性がありました。しかし、アーキテクチャ設計、損失関数、および学習ストラテジーの進歩により、YOLO11 ような最新の1段検出器は、この性能差を大幅に縮めることができるようになり、さまざまなベンチマークで説得力のある比較ができるようになりました。性能は通常、平均平均精度(mAP)やIntersection over Union(IoU)などのメトリクスを用いて評価される。

実世界での応用

1段式物体検出器のスピードと効率は、迅速な意思決定と処理を必要とする多くの実世界のシナリオで非常に貴重なものとなっている:

  • 自律走行車自動運転車が歩行者、他の車両、信号、障害物をリアルタイムで検知し、安全なナビゲーションを可能にする。Waymoのような企業は、効率的な物体検知に大きく依存しています。Ultralytics 車載AI向けのソリューションを提供しています。
  • セキュリティと監視リアルタイムの監視システムに電力を供給し、侵入の検出、無許可の個人の特定、群衆密度の監視、セキュリティアラームの起動などを行います。これには、盗難防止などのアプリケーションも含まれます。
  • ロボティクスロボットが環境を認識し、相互作用できるようにすることは、ナビゲーション、物体操作、人間とロボットの共同作業などのタスクに不可欠です。YOLO モデルとロボット工学アプリケーションとの統合をご覧ください。
  • 交通管理交通カメラからのビデオフィードを分析して、車両の流れを監視し、事故を検出し、信号のタイミングを最適化する。
  • リテール・アナリティクス 在庫管理、顧客行動の分析、店舗での体験の向上などに使用。
  • 製造品質管理生産ラインの欠陥や異常を高速で特定する。

ツールとトレーニング

一段階の物体検出器を開発し、展開するには、さまざまなツールやプラットフォームを使用する必要がある。ディープラーニングフレームワーク PyTorchTensorFlowなどのディープラーニング・フレームワークがコア・ライブラリを提供する。OpenCVのようなコンピュータビジョンライブラリは、必要不可欠な画像処理機能を提供する。Ultralytics 最先端の Ultralytics YOLOモデルとUltralytics HUBプラットフォームを提供し、COCOのようなデータセットや独自のデータでのカスタムモデルのトレーニング、実験の管理、モデルの効率的な展開を簡素化します。効果的なモデルのトレーニングには、ロバスト性と汎化性を向上させるために、注意深いハイパーパラメータのチューニングや データ増強などの戦略が必要になることがよくあります。モデルは ONNXなどの形式にエクスポートできます。

すべて読む