ロボット工学や監視などのリアルタイムアプリケーションに理想的な、YOLO のような1段式物体検出器のスピードと効率をご覧ください。
コンピュータ・ビジョン(CV)の分野、特に物体検出の分野では、スピードと効率はしばしば精度と同じくらい重要である。1ステージ物体検出器は、このような優先順位を念頭に置いて設計されたディープラーニングモデルのクラスであり、画像や動画内の物体を識別し、位置を特定するための合理的なアプローチを提供する。2ステージの同等品とは異なり、1ステージ検出器は、ニューラルネットワークの1回のフォワードパスで、オブジェクトの位置特定(オブジェクトがどこにあるかを決定する)と分類(オブジェクトが何であるかを決定する)を実行します。この設計により、大幅に高速化され、リアルタイムの推論アプリケーションに非常に適しています。
一段階の物体検出は、関心領域(物体を含みそうな領域)を提案するための、計算量の多い別個のステップを避ける、エンド・ツー・エンドの設計が特徴である。その代わりに、物体検出を回帰問題として扱います。モデルは入力画像全体を一旦処理し、通常、特徴抽出のためにバックボーン・ネットワーク(多くの場合、畳み込みニューラルネットワークまたはCNN)を使用する。次にこれらの特徴は、画像グリッドまたは特徴マップの位置全体にわたって、バウンディングボックス座標、クラス確率、および信頼度スコアを同時に予測する検出ヘッドに直接供給される。このシングルパスアーキテクチャはスピードを重視するため、迅速な処理が不可欠なアプリケーションに最適です。一般的な例としては Ultralytics YOLOシリーズがあり、スピードと精度のバランスで知られている(例えば YOLO11やGoogle Researchが開発したSSD(Single Shot MultiBox Detector)などがある。最新の1段検出器の多くもアンカーフリーであり、旧来のアンカーベースの手法と比較してパイプラインをさらに単純化しています。
1段物体検出器と2段物体検出器の基本的な違いは、その動作パイプラインにある。有力なR-CNN(Region-based CNN)やFaster R-CNNのようなその後継のような2段階検出器では、まず、選択的探索(Selective Search)や領域提案ネットワーク(Region Proposal Network:RPN)のような手法を用いて、多数の領域提案を生成する。2番目の明確な段階で、これらの提案は分類され、それらの境界ボックスは洗練される。この2段階のプロセスは、一般的に、特に小さいオブジェクトや重なり合うオブジェクトの検出において、より高い精度を達成するが、計算時間が大幅に増加し、推論速度が低下するという代償を伴う。
対照的に、1ステージ検出器はこれらのステップを統合し、画像全体にわたってローカライズと分類を同時に一度に実行します。この統一されたアプローチにより、スピードが大幅に向上します。歴史的に、このスピードの利点はトレードオフの関係にあり、特にローカライズの精度に関して、最新の2段法に比べて精度が若干低くなる可能性がありました。しかし、アーキテクチャ設計、損失関数、および学習ストラテジーの進歩により、YOLO11 ような最新の1段検出器は、この性能差を大幅に縮めることができるようになり、さまざまなベンチマークで説得力のある比較ができるようになりました。性能は通常、平均平均精度(mAP)やIntersection over Union(IoU)などのメトリクスを用いて評価される。
1段式物体検出器のスピードと効率は、迅速な意思決定と処理を必要とする多くの実世界のシナリオで非常に貴重なものとなっている:
一段階の物体検出器を開発し、展開するには、さまざまなツールやプラットフォームを使用する必要がある。ディープラーニングフレームワーク PyTorchや TensorFlowなどのディープラーニング・フレームワークがコア・ライブラリを提供する。OpenCVのようなコンピュータビジョンライブラリは、必要不可欠な画像処理機能を提供する。Ultralytics 最先端の Ultralytics YOLOモデルとUltralytics HUBプラットフォームを提供し、COCOのようなデータセットや独自のデータでのカスタムモデルのトレーニング、実験の管理、モデルの効率的な展開を簡素化します。効果的なモデルのトレーニングには、ロバスト性と汎化性を向上させるために、注意深いハイパーパラメータのチューニングや データ増強などの戦略が必要になることがよくあります。モデルは ONNXなどの形式にエクスポートできます。