用語集

物体検出

物体検出のパワーを発見しましょう。YOLO のような最先端のモデルを使って、画像やビデオ内の物体を識別し、位置を特定します。実世界のアプリケーションを探求する!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

物体検出は、コンピュータビジョン(CV)における基本的なタスクであり、画像やビデオ内の1つ以上の物体の存在、位置、種類を識別することを含む。画像全体に単一のラベルを割り当てる画像分類とは異なり、物体検出は、バウンディングボックスを使用して各物体インスタンスの輪郭を正確に描き、それにクラスラベルを割り当てる。この機能により、機械は視覚シーンをより細かく理解することができ、人間の視覚認識をより忠実に反映することができる。

物体検出の仕組み

物体検出は通常、物体の分類(「どの」物体が存在するかを判断する)と物体の定位(物体が「どこに」あるかを判断する)という2つのコアタスクを組み合わせている。最新の物体検出システムは、ディープラーニング(DL)、特に畳み込みニューラルネットワーク(CNN)に大きく依存している。これらのネットワークは、人気のあるCOCOデータセットのような大規模なデータセットで学習され、さまざまな物体クラスに関連する特徴やパターンを学習する。このモデルは入力画像を処理し、それぞれに関連するクラスラベル(例えば「車」、「人」)と信頼度スコアを持つバウンディングボックスのリストを出力する。これらのモデルの性能は、多くの場合、Intersection over Union (IoU)mean Average Precision (mAP)のようなメトリクスを用いて測定されます。

物体検出と関連タスクの比較

物体検出を他の関連するコンピュータ・ビジョン・タスクと区別することは重要である:

  • 画像の分類画像全体に1つのラベルを付ける(例:「この画像には猫が写っています」)。オブジェクトの位置情報は提供しない。
  • 画像分割画像内の各ピクセルを分類する。セマンティック・セグメンテーションは各画素にクラスラベルを割り当て(例えば、車に属する画素はすべて「car」とラベル付けされる)、インスタンス・セグメンテーションは同じクラスの異なるインスタンスを区別する(例えば、「car 1」、「car 2」とラベル付けされる)。セグメンテーションは、オブジェクト検出のバウンディングボックスよりも詳細な空間情報を提供する。

物体検出モデルの種類

物体検出モデルは一般的に2つのカテゴリーに分類される:

  • 二段階検出器:これらのモデルは、まず物体が置かれていそうな関心領域(ROI)を提案し、次にその領域内の物体を分類する。例としてはR-CNNファミリー(Region-based CNN)がある。これらのモデルは高い精度を達成することが多いが、速度が遅くなることがある。
  • 一段階検出器:これらのモデルは、画像グリッド上で直接、1回のパスでローカライズと分類を実行します。例 Ultralytics YOLOのようなモデル YOLOv8YOLOv11がある。これらのモデルは一般的に高速で、リアルタイム推論に適している。アンカーなし検出器のような新しいアプローチは、検出プロセスをさらに単純化します。トレードオフを理解するために、さまざまなYOLO モデルの比較を調べることができます。

実世界での応用

物体の検出は、様々な産業における数多くのアプリケーションにとって極めて重要である:

ツールとトレーニング

オブジェクト検出モデルの開発には、専用のツールやプラットフォームが必要だ。例えば PyTorchTensorFlowのようなフレームワークがビルディングブロックを提供する。OpenCVのようなライブラリは、コンピュータビジョンに不可欠な機能を提供します。Ultralytics 最先端の Ultralytics YOLOモデルとUltralytics HUBプラットフォームを提供し、カスタムモデルのトレーニング、データセットの管理、ソリューションの効率的な展開のプロセスを簡素化します。効果的なモデルトレーニングには、多くの場合、注意深いハイパーパラメーターのチューニングとデータ増強戦略が必要です。

すべて読む