了解平均精度 (mAP) 在评估自动驾驶和医疗保健等人工智能应用的物体检测模型中的重要性。
平均精度(mAP)是计算机视觉领域广泛使用的一个重要评估指标,尤其适用于物体检测任务。它提供了一个单一的综合分数,通过衡量模型对所有物体类别的预测准确度来总结模型的性能。mAP 分数既考虑了分类的正确性(物体是否如模型所说?),也考虑了定位的质量(预测的边界框与实际物体位置的匹配程度如何?)由于 mAP 能提供均衡的评估,因此已成为比较Ultralytics YOLO 等不同物体检测模型性能的标准指标。
要了解 mAP,首先要掌握其核心组成部分:精确度(Precision)、召回率(Recall)和联合交集(IoU)。
mAP 计算综合了这些概念。对于每个对象类别,通过绘制不同置信度阈值下的精确度与召回率曲线,生成精确度-召回率曲线。该类别的平均精度(Average Precision,AP)就是该曲线下的面积,它提供了一个代表模型在该特定类别上性能的单一数字。最后,取所有对象类别的 AP 分数的平均值来计算 mAP。有些评估方案,如流行的COCO 数据集的评估方案,则更进一步,通过对多个 IoU 阈值的 mAP 取平均值来提供更稳健的评估。
虽然 mAP 与其他评价指标相关,但其目的截然不同。
标准化的基准数据集对于推动物体检测领域的发展至关重要。PASCAL VOC和COCO等数据集将 mAP 作为其主要指标,用于在公共排行榜上对提交的数据进行排名。这使得研究人员和从业人员能够客观地比较不同的模型,如YOLOv8和YOLO11。
Ultralytics HUB等平台的显著特点是使用 mAP 帮助用户跟踪模型训练和验证过程中的性能。PyTorch和TensorFlow 等支持这些模型的底层深度学习框架为构建和训练模型提供了必要的工具,这些模型最终将使用 mAP 进行评估。
mAP 指标是开发可靠的人工智能系统的基础。