用語集

平均平均精度(mAP)

自動運転やヘルスケアなどのAIアプリケーションにおける物体検出モデルの評価における平均平均精度(mAP)の重要性を発見してください。

平均平均精度(mean Average Precision:mAP)は、コンピュータビジョン、特に物体検出タスクで広く使用されている重要な評価指標です。これは、すべてのオブジェクトカテゴリにわたる予測精度を測定することにより、モデルのパフォーマンスを要約する単一の包括的なスコアを提供します。mAPスコアは、分類の正しさ(そのオブジェクトがモデルの言う通りか)とローカライゼーションの品質(予測されたバウンディングボックスが実際のオブジェクトの位置とどの程度一致しているか)の両方を考慮します。mAPはバランスの取れた評価を提供するため、Ultralytics YOLOのような異なるオブジェクト検出モデルのパフォーマンスを比較するための標準的な指標となっています。

mAPの仕組み

mAPを理解するには、まずその核となる構成要素を把握することが役に立つ:Precision、Recall、Intersection over Union (IoU)である。

  • 精度モデルの予測がどれだけ正確かを測る。これは質問に答えるものである:「モデルが検出したすべての物体のうち、何割が正しかったか?
  • リコールモデルがどの程度実際のオブジェクトをすべて見つけることができるかを測定する。これは質問に答える:"画像に存在するすべての真のオブジェクトのうち、モデルがうまく検出できたのは何パーセントか?"
  • Intersection over Union(IoU)予測されたバウンディング・ボックスが、グラウンド・トゥルース(手動でラベル付けされた)のバウンディング・ボックスとどの程度オーバーラップするかを定量化するメトリック。通常、IoUがある閾値(例えば0.5)以上の場合、検出は真陽性とみなされる。

mAP計算はこれらの概念を統合する。各オブジェクトクラスについて,様々な信頼スコアのしきい値でリコールに対する精度をプロットすることで,精度-リコール曲線が生成される.そのクラスの平均精度(AP)は、この曲線の下の面積であり、その特定のクラスでのモデルのパフォーマンスを表す単一の数値を提供する。最後に、mAPはすべてのオブジェクトクラスにわたるAPスコアの平均を取ることによって計算される。人気のあるCOCOデータセットの評価スキームのように、さらに一歩進んで、複数のIoUしきい値にわたってmAPを平均化することで、さらにロバストな評価を提供するものもあります。

mAPと他の指標との違い

他の評価指標と関連してはいるが、mAPには明確な目的がある。

  • 精度精度は予測の総数に対する正しい予測の比率を測定する。これは一般的に分類タスクに使用され、予測が正しく分類され、かつローカライズされなければならない物体検出には不向きです。
  • F1-スコアF1スコアはPrecisionとRecallの調和平均である。有用ではあるが、これは通常1つの信頼閾値で計算される。対照的に、mAPはすべての閾値にわたってパフォーマンスを平均化することで、より包括的な評価を提供する。
  • 確信度これはモデル全体に対する評価指標ではなく、個々の予測に割り当てられるスコアで、モデルがその1つの検出についてどの程度確信しているかを示します。mAPの計算では、これらの信頼度スコアを使用してPrecision-Recall曲線を作成します。

ツールとベンチマーク

標準化されたベンチマークデータセットは、物体検出の分野を発展させるために非常に重要です。PASCAL VOCや COCOのようなデータセットでは、公開リーダーボードに投稿されたランキングの主な指標としてmAPが使用されています。これにより、研究者や実務者は、YOLOv8や YOLO11のような異なるモデルを客観的に比較することができます。

Ultralytics HUBのようなプラットフォームは、ユーザーがモデルの訓練と 検証中にパフォーマンスを追跡できるように、mAPを顕著に特徴付ける。PyTorchや TensorFlowのような、これらのモデルに力を与える基礎となる深層学習フレームワークは、最終的にmAPを使用して評価されるモデルの構築とトレーニングに必要なツールを提供します。

実世界での応用

mAP指標は、信頼性の高いAIシステムを開発する上で基本的なものである。

  1. 自律走行車 自動運転車のAIでは、知覚モデルは自動車、歩行者、自転車、交通標識など様々な物体を正確に検出しなければならない。Argoverseのような難しいデータセットでmAPスコアが高いということは、そのモデルがすべての重要なクラスにわたってロバストで信頼できることを示しています。ウェイモのようなこの分野のリーディング・カンパニーは、mAPのようなメトリクスを用いた厳密な評価に大きく依存している。
  2. 医療画像解析 脳腫瘍データセットのようなデータセットを使用して、スキャン画像から腫瘍や病変のような異常を検出するモデルをトレーニングする場合、mAPはその全体的な診断精度を評価するために使用されます。高いmAPは、モデルが最も一般的なタイプの異常を検出するのに優れているだけでなく、稀ではあるが同様に重要な状態を識別するのにも効果的であることを保証します。この包括的な評価は、モデルが医療現場での展開を検討する前の重要なステップである。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク