用語集

平均平均精度(mAP)

自動運転やヘルスケアなどのAIアプリケーションにおける物体検出モデルの評価における平均平均精度(mAP)の重要性を発見してください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

平均平均精度(mean Average Precision, mAP)は、一般的なUltralticsのような物体検出モデルの性能を評価するために広く使用されている指標です。 Ultralytics YOLOファミリーのような物体検出モデルの性能を評価するために広く使用されている指標です。mAPは、様々なクラスと信頼レベルにわたって物体を正しく識別し、位置を特定するモデルの能力を要約する単一の包括的なスコアを提供します。より単純なメトリクスとは異なり、mAPは、関連するオブジェクトをすべて見つけること(リコール)と、見つかったオブジェクトが本当に正しいことを確認すること(精度)の間のトレードオフのバランスを効果的にとり、自律システムや医療診断のような複雑なアプリケーションで使用されるモデルを評価する上で非常に重要です。

基本を理解する精度と再現率

mAPを理解するには、まずPrecisionと Recallを把握することが不可欠である。物体検出では

  • 精度:検出された物体のいくつが実際に正しいかを測定する。精度が高いということは、誤検出が少ないことを意味する。
  • リコール:実際に存在するオブジェクトのうち、モデルによって正しく検出されたオブジェクトの数を測定する。高いリコールは、モデルが関連オブジェクトのほとんどを検出し、偽陰性を最小化することを意味する。

mAPは、このトレードオフの異なるポイントにわたってモデルを評価する方法を提供します。WikipediaでPrecisionとRecallの基礎についてもっと知ることができます。

mAPの計算方法

mAPの計算にはいくつかのステップがある。まず、各オブジェクト・クラスについて、モデルの予測を信頼度スコアでソートする。そして、さまざまな信頼度しきい値で精度と想起値を計算することで、精度-想起曲線が生成される。この曲線下の面積(AUC)は、その特定のクラスの平均精度(AP)を与える。最後に、データセット中のすべてのオブジェクト・クラスにわたるAP値を平均することで、mAPが計算される。

多くの場合、mAPは特定のIntersection over Union (IoU)しきい値で報告される。これは、予測されたバウンディング・ボックスがどれだけグラウンド・トゥルースのボックスと重なっているかを測定するものである。一般的なものは以下の通りです:

  • mAP@0.5:IoUしきい値を0.5として計算。これはPASCAL VOCのようなベンチマークでよく使われる標準的な指標です。
  • mAP@0.5:0.95:複数のIoUしきい値(0.5から0.95まで、通常は0.05刻み)にわたって計算された平均mAP。これはCOCOデータセットで使用されている主要な指標であり、ローカライゼーションの精度をより厳しく評価する。

これらの指標がYOLO モデルにどのように適用されるかの詳細については、YOLO パフォーマンス指標ガイドを参照のこと。

mAPが重要な理由

平均平均精度は、オブジェクト検出モデルの性能の全体的なビューを提供するため、非常に重要です。これは、すべてのクラスにわたる分類精度(オブジェクトクラスが正しいか)と定位精度(バウンディングボックスが正しく配置されているか)の両方を考慮します。このため、特に複数のオブジェクト・カテゴリーや不均衡なクラス分布を持つデータセットでは、精度やリコールだけを見るよりも有益です。一般的にmAPスコアが高いほど、よりロバストで信頼性の高いオブジェクト検出モデルであることを示します。mAPを向上させるには、ハイパーパラメータのチューニングや、より良いトレーニングデータの使用といったテクニックが必要になることが多い。

実世界での応用

mAPは、精度が最優先される実世界のタスクでモデルを評価する上で非常に重要である:

  • 自律走行車:自動運転車は、歩行者、他の車両、信号、障害物を確実に検知する必要があります。高いmAPスコアは、認識システムが安全なナビゲーションのために十分正確であることを保証します。自動運転ソリューションにおけるAIを探求し、検出モデルがどのように適用されているかをご覧ください。
  • 医療画像解析:医療では、スキャン画像(X線やMRIなど)から腫瘍や病変、その他の異常を検出するモデルには、高いmAPが求められます。これにより、診断の正確性が保証され、検出漏れ(高い再現性が必要)と誤報(高い精度が必要)の両方が最小限に抑えられます。ヘルスケア・アプリケーションにおけるAIの詳細については、こちらをご覧ください。

mAPと他の指標との比較

mAPを関連する評価指標と区別することは重要である:

  • 精度分類タスクには有効だが、精度は一般的に物体検出には適さない。ローカライゼーションの品質が考慮されておらず、背景優勢やクラス不均衡のデータセットでは誤解を招く可能性がある。
  • Intersection over Union(IoU)IoUは、1つの予測されたバウンディング・ボックスと、それに対応するグラウンド・トゥルース・ボックスとの重なりを測定します。IoUのしきい値は、検出が正しいかどうかを判断するためにmAPの計算内で使用されますが、IoU自体はmAPのようにすべてのクラスとしきい値にわたる総合的なパフォーマンス・スコアを提供しません。これらのメトリクスの使用に関する洞察は、「モデル評価とファインチューニング」ガイドに記載されています。

ツールとベンチマーク

Ultralytics HUBのようなツールは、ユーザーがモデルを訓練、追跡、評価することを可能にし、重要なパフォーマンス指標としてmAPを目立たせている。フレームワーク PyTorchTensorFlowなどのフレームワークは、これらのモデルのためのビルディングブロックを提供する。COCOやPASCAL VOCのような標準的なデータセットは、物体検出モデルを比較するための主要なメトリックとしてmAPを使用し、この分野の進歩を推進しています。Ultralytics モデル比較のページでは、mAPで測定されるさまざまなモデルの性能を調べて比較することができます。

すべて読む