术语表

平均精度 (mAP)

了解平均精度 (mAP) 在评估自动驾驶和医疗保健等人工智能应用的物体检测模型中的重要性。

平均精度(mAP)是计算机视觉领域广泛使用的一个重要评估指标,尤其适用于物体检测任务。它提供了一个单一的综合分数,通过衡量模型对所有物体类别的预测准确度来总结模型的性能。mAP 分数既考虑了分类的正确性(物体是否如模型所说?),也考虑了定位的质量(预测的边界框与实际物体位置的匹配程度如何?)由于 mAP 能提供均衡的评估,因此已成为比较Ultralytics YOLO 等不同物体检测模型性能的标准指标。

mAP 如何工作

要了解 mAP,首先要掌握其核心组成部分:精确度(Precision)、召回率(Recall)和联合交集(IoU)。

  • 精确度衡量模型预测的准确程度。它回答的问题是:"在模型检测到的所有物体中,正确率是多少?"
  • 召回率衡量模型找到所有实际物体的程度。它能回答以下问题"在图像中存在的所有真实物体中,模型成功检测到的物体占多大比例?
  • 交集大于联合 (IoU):量化预测边界框与地面真实(人工标注)边界框重叠程度的指标。如果 IoU 高于某个阈值(如 0.5),则通常认为检测为真阳性。

mAP 计算综合了这些概念。对于每个对象类别,通过绘制不同置信度阈值下的精确度与召回率曲线,生成精确度-召回率曲线。该类别的平均精度(Average Precision,AP)就是该曲线下的面积,它提供了一个代表模型在该特定类别上性能的单一数字。最后,取所有对象类别的 AP 分数的平均值来计算 mAP。有些评估方案,如流行的COCO 数据集的评估方案,则更进一步,通过对多个 IoU 阈值的 mAP 取平均值来提供更稳健的评估。

将 mAP 与其他指标区分开来

虽然 mAP 与其他评价指标相关,但其目的截然不同。

  • 准确性准确度衡量的是正确预测与预测总数的比率。它一般用于分类任务,不适合对象检测,因为在对象检测中,预测必须同时正确分类和定位。
  • F1 分数F1 分数是精确度和召回率的调和平均值。虽然有用,但它通常是在单一置信度阈值下计算的。相比之下,mAP 通过平均所有阈值的性能来提供更全面的评估。
  • 置信度这不是模型整体的评估指标,而是分配给每个预测的分数,表示模型对该检测的确定程度。mAP 计算使用这些置信度分数来创建精度-召回曲线。

工具和基准

标准化的基准数据集对于推动物体检测领域的发展至关重要。PASCAL VOCCOCO等数据集将 mAP 作为其主要指标,用于在公共排行榜上对提交的数据进行排名。这使得研究人员和从业人员能够客观地比较不同的模型,如YOLOv8YOLO11

Ultralytics HUB等平台的显著特点是使用 mAP 帮助用户跟踪模型训练验证过程中的性能。PyTorchTensorFlow 等支持这些模型的底层深度学习框架为构建和训练模型提供了必要的工具,这些模型最终将使用 mAP 进行评估。

实际应用

mAP 指标是开发可靠的人工智能系统的基础。

  1. 自动驾驶汽车自动驾驶汽车的人工智能中,感知模型必须能准确检测到汽车、行人、骑车人和交通标志等各种物体。在Argoverse这样具有挑战性的数据集上获得高 mAP 分数,表明该模型在所有关键类别中都是稳健可靠的,这对确保安全至关重要。该领域的领先公司,如Waymo,在很大程度上依赖于使用 mAP 等指标进行的严格评估。
  2. 医学图像分析在使用脑肿瘤数据集等数据集训练模型检测扫描中的肿瘤或病变等异常时,mAP 可用于评估其整体诊断准确性。高 mAP 可确保模型不仅擅长检测最常见的异常类型,还能有效识别较罕见但同样重要的病症。这种综合评估是考虑在医疗环境中部署模型前的关键步骤。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板