术语表

平均精度 (mAP)

了解平均精度 (mAP) 在评估自动驾驶和医疗保健等人工智能应用的物体检测模型中的重要性。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

平均精确度 (mAP) 是一种广泛使用的指标,用于评估物体检测模型的性能,如流行的 Ultralytics YOLO系列中的模型。它提供了一个单一的综合分数,总结了模型在不同类别和置信度下正确识别和定位物体的能力。与更简单的指标不同,mAP 能有效平衡找到所有相关对象(召回率)与确保找到的对象确实正确(精确度)之间的权衡,因此对于评估自主系统和医疗诊断等复杂应用中使用的模型至关重要。对于参与开发或部署计算机视觉(CV)模型的任何人来说,了解 mAP 都是至关重要的。

了解基础知识:精确度和召回率

要理解 mAP,首先必须掌握精确度召回率。就物体检测而言

  • 精确度:衡量识别出的物体中有多少是真正正确的。精确度高意味着模型很少做出错误预测。
  • 回忆:衡量模型能正确识别多少实际存在的物体。高召回率意味着模型找到了大部分相关对象(假阴性很少)。

mAP 提供了一种方法来评估模型在不同权衡点上的表现,从而提供了一种更平衡的性能视图。您可以在维基百科上了解有关精确度和召回率基本原理的更多信息。

如何计算 mAP

mAP 的计算涉及多个步骤,可对模型在不同物体类别和检测阈值下的性能进行稳健的评估:

  1. 置信度排序:对于每个物体类别,模型的预测结果(检测到的边界框)会根据置信度得分从高到低进行排序。
  2. 精度-召回曲线:为每个类别生成精确度-召回率曲线。该曲线描绘了在不同置信度阈值下计算出的精确度和召回值。随着阈值的降低,召回率通常会增加(检测到更多的对象),而精确度可能会降低(可能会包含更多的误报)。
  3. 平均精度 (AP): 单个类别的平均精度 (AP) 计算为精度-召回曲线下的面积。这提供了一个单一的数字,概括了模型在所有召回级别中对该特定类别的表现。有不同的方法可用于近似计算该区域
  4. 平均精度 (mAP):最后,通过对数据集中所有对象类别的 AP 值取平均值来计算 mAP。这样就得出了模型在整个数据集上的总体性能得分。

通常情况下,mAP 是按照特定的 "交集大于联合"(IoU)阈值进行报告的。IoU 衡量的是预测边界框与地面实况(实际)边界框之间的重叠程度。常见的 mAP 变体包括

  • mAP@0.5(或 mAP50):使用 0.5 的固定 IoU 临界值计算。这是PASCAL VOC 挑战赛等基准测试中使用的标准指标。只有当检测结果与地面实况的 IoU 值大于或等于 0.5 时,该检测结果才被认为是正确的。
  • mAP@.5:.95(或 mAP[.5:.95]):通过多个 IoU 阈值(通常从 0.5 到 0.95,步长为 0.05)的 mAP 平均值计算得出。该指标通常用于COCO 数据集评估,通过考虑不同定位精度要求下的性能,提供更全面的评估。

要详细了解这些指标如何具体应用于YOLO 模型,请参阅Ultralytics YOLO 性能指标指南

为什么 mAP 重要

平均精度之所以重要,是因为它能全面反映物体检测模型的性能。它同时考虑了训练数据中定义的所有类别的分类精度(对象类别是否正确?)和定位精度(边界框是否放置正确?这使得它比孤立地看精确度或召回率更有参考价值,尤其是在有多个对象类别或类别分布不平衡的数据集中。mAP 分数越高,通常表明物体检测模型越稳健可靠。谨慎的数据扩充超参数调整以及选择合适的模型架构(如 YOLO11等技术是提高 mAP 的常用策略。

实际应用

mAP 对于评估实际任务中的模型至关重要,因为在实际任务中,准确性和可靠性是最重要的:

其他应用包括安全监控、机器人技术(在机器人技术中集成计算机视觉)、零售分析(人工智能用于更智能的零售库存管理)和农业

mAP 与其他指标的比较

必须将 mAP 与机器学习 (ML) 中使用的相关评估指标区分开来:

  • 准确性:准确率主要用于分类任务,衡量的是正确预测(包括真阳性和真阴性)在实例总数中所占的总体比例。它不能直接评估定位质量,在物体检测中可能会产生误导,尤其是在背景类占主导地位的不平衡数据集中。
  • 联盟交叉(IoU):测量预测边界框与地面实况边界框之间的空间重叠。IoU 用于评估单个检测的定位质量,而 mAP 则采用 IoU 阈值(如 0.5 或 0.5:0.95 的范围)来确定检测是否为真阳性,然后汇总不同类别和置信度的性能。IoU 本身是 mAP 计算的一个组成部分,不能取代 mAP。

了解这些差异对于根据具体任务和评估目标选择合适的指标至关重要。如需了解更多信息,请参阅《模型评估和微调指南》。

工具和基准

Ultralytics HUB等工具允许用户训练、跟踪和评估模型,并在模型训练验证过程中将 mAP 作为关键性能指标。ML 框架,如 PyTorchTensorFlow等 ML 框架为构建和训练这些物体检测模型提供了基础组件。COCOPASCAL VOC等标准化数据集在公共排行榜和研究论文中使用 mAP 作为比较物体检测模型的主要指标,推动了该领域的进步。您可以在Ultralytics 模型比较页面上探索和比较各种模型的性能,这些性能通常由 mAP 度量。

阅读全部