用語集

1段式物体検出器

ロボットや監視などのリアルタイム・アプリケーションに理想的な、YOLOのような1段式物体検出器のスピードと効率をご覧ください。

1ステージ物体検出器は、コンピュータビジョンにおけるスピードと効率性のために設計されたディープラーニングモデルのクラスである。このモデルは、オブジェクトのローカライズと分類を、ニューラルネットワークの単一の統一されたパスで実行する。これは、タスクを2つの異なるステップに分割する、より複雑な対応物である2ステージ物体検出器とは対照的である。物体検出を単純な回帰問題として扱うことで、1ステージモデルは画像特徴から直接バウンディングボックスとクラス確率を予測し、非常に高速でリアルタイム推論を必要とするアプリケーションに適している。

1段検出器の仕組み

ワンステージ検出器は、1つの畳み込みニューラルネットワーク(CNN)を通して画像全体を一度に処理する。このネットワークのアーキテクチャは、いくつかのタスクを同時に実行するように設計されている。まず、ネットワークのバックボーンが 特徴抽出を行い、さまざまなスケールで入力画像の豊富な表現を作成する。これらの特徴は、次に特殊な検出ヘッドに供給される。

このヘッドは、バウンディングボックスのセット、オブジェクトの存在を示す各ボックスの信頼度スコア、各オブジェクトが特定のクラスに属する確率を予測する役割を担っている。この全プロセスは1回のフォワードパスで行われ、これが高速化の鍵となっている。その後、非最大抑制(NMS)のような技術を使用して、冗長で重複する検出をフィルタリングし、最終的な出力を生成します。モデルは、ローカリゼーション損失(バウンディングボックスがどれだけ正確か)と分類損失(クラス予測がどれだけ正確か)を組み合わせた特殊な損失関数を使用してトレーニングされる。

2段式物体検出器との比較

主な違いは手法にある。1段式ディテクターはスピードとシンプルさを追求し、2段式ディテクターは正確さを優先しているが、この違いは新しいモデルほど顕著ではなくなってきている。

  • ワンステージ・ディテクターYOLO(You Only Look Once)ファミリーのようなこれらのモデルは、シングル・ステップで検出を行う。一般的に高速で、アーキテクチャがシンプルなため、エッジ・デバイスやリアルタイム・アプリケーションに最適です。アンカーフリーディテクタの開発により、性能とシンプルさがさらに向上しました。
  • 二段式物体検出器:R-CNNシリーズやその高速版のようなモデルは、まず物体がありそうな領域の提案の疎な集合を生成する。第2段階では、別のネットワークがこれらのプロポーザルを分類し、バウンディングボックス座標を改良する。この2段階の処理により、特に小さな物体に対してより高い精度が得られるが、その代償として推論速度が著しく遅くなる。マスクR-CNNは、このアプローチをインスタンスのセグメンテーションに拡張したよく知られた例である。

主要なアーキテクチャとモデル

影響力のあるワンステージ・アーキテクチャがいくつか開発されており、それぞれがユニークな貢献をしている:

  • YOLO(一度しか見ない)2015年の画期的な論文で紹介されたYOLOは、物体検出を単一の回帰問題としてフレーム化した。YOLOv8や最先端のUltralytics YOLO11を含むその後のバージョンは、スピードと精度のバランスを継続的に改善してきた。
  • シングルショット・マルチボックス検出器(SSD)SSDアーキテクチャは、マルチスケール特徴マップを使用して様々な大きさの物体を検出し、オリジナルのYOLOよりも精度を向上させた、もう一つの先駆的な1ステージモデルです。
  • RetinaNet:このモデルはFocal Lossを導入した。Focal Lossは、高密度な検出器のトレーニング中に遭遇する極端なクラス不均衡に対処するために設計された新しい損失関数で、当時の多くの2段階検出器の精度を上回ることができた。
  • EfficientDetGoogle Researchが開発したモデル群で、複合スケーリング手法と新しいBiFPN特徴ネットワークを使用することで、スケーラビリティと効率性を重視している。YOLO11とEfficientDetの比較など、他のモデルとの比較もご覧いただけます。

実世界での応用

1段検出器のスピードと効率は、AIを駆使した数多くのアプリケーションに不可欠なものとなっている:

  1. 自律走行車自動運転車用のAIでは、1段検出器がリアルタイムで環境を認識するために極めて重要である。歩行者、自転車、他の車両、交通標識を瞬時に識別・追跡し、車両のナビゲーション・システムが瞬時に重要な判断を下せるようにする。テスラのような企業は、オートパイロットシステムに同様の原理を利用している。
  2. スマートなセキュリティと監視ワンステージ・モデルは、ビデオ・フィードを解析して不正侵入や不審な行動などの脅威を検出することで、最新のセキュリティ・システムを強化します。例えば、行列管理のために行列の人数を数えたり、空港で放置された荷物を識別したりするように、システムを訓練することができます。

利点と限界

ワンステージ検出器の主な利点は、NVIDIA Jetsonや Raspberry Piのような低消費電力のエッジAIデバイスを含む様々なハードウェア上でリアルタイムのオブジェクト検出を可能にする、その驚異的なスピードです。また、よりシンプルなエンド・ツー・エンドのアーキテクチャにより、PyTorchや TensorFlowのようなフレームワークを使った学習やデプロイも容易になります。

歴史的に、主な限界は、2段検出器と比較して精度が低いことであり、特に非常に小さい物体や大きく隠蔽された物体を扱う場合に顕著であった。しかし、YOLO11のようなモデルに見られるように、モデルアーキテクチャとトレーニング技術における最近の進歩は、この性能差を大幅に縮め、幅広いコンピュータビジョンタスクに速度と高精度の強力な組み合わせを提供しています。Ultralytics HUBのようなプラットフォームは、特定のニーズに合わせてカスタムモデルをトレーニングするプロセスをさらに簡素化します。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク