了解什么是 "交集大于联合"(IoU)、它是如何计算的,以及它在物体检测和人工智能模型评估中的关键作用。
交集大于联合(IoU)是计算机视觉(CV)中广泛使用的一个基本指标,尤其适用于物体检测和图像分割等任务。它量化了预测边界(如物体检测中的边界框)与物体实际、地面真实边界的匹配程度。从本质上讲,IoU 衡量的是预测区域与真实区域之间的重叠程度,为定位性能提供了一个简单而有效的分数。了解 IoU 对于评估和比较计算机视觉模型的有效性至关重要,尤其是对于熟悉基本机器学习 (ML)概念的用户而言。
在评估以下模型的性能时,IoU 是一项重要的性能指标 Ultralytics YOLO等模型在图像中定位物体的性能时,IoU 是一个关键的性能指标。分类可以告诉我们存在什么物体(参见图像分类),而 IoU 则可以告诉我们模型精确定位物体位置的程度。在现实世界的许多场景中,精确定位与正确分类同样重要,因此这种空间精确度至关重要。高 IoU 分数表明,模型的预测与实际物体的边界非常吻合。许多物体检测基准,如流行的COCO 数据集评估和较早的PASCAL VOC 挑战赛,都在很大程度上依赖 IoU 阈值来确定检测是否正确。您可以在我们的文档中探索各种基准数据集,如COCO和PASCAL VOC。
计算方法是将预测边界框与地面实况边界框重叠的区域(交点)除以两个边界框合并覆盖的总区域(结合点)。1 表示完全匹配,即预测边界框与地面实况边界框完全重叠。0 分表示完全没有重叠。许多物体检测评估协议的常见做法是,如果 IoU 分数达到或超过某个阈值(通常为 0.5),则认为预测正确。不过,根据应用对精度的要求,可能会使用更严格的阈值(如 0.75 或甚至 0.9),如 COCO 评估中使用的 mAP@.5:.95 等指标。该阈值会直接影响精确度和召回率等指标。
IoU 能够测量定位精度,因此在各个领域都不可或缺:
虽然 IoU 专门针对地面实况测量单一预测的定位质量,但它通常与其他指标一起使用,以全面反映性能。
IoU 不仅仅是一个评估指标,也是训练过程本身不可或缺的一部分。许多现代物体检测架构,包括 Ultralytics YOLOv8和YOLOv10 的变体,在其损失函数中直接使用 IoU 或其变体(如广义 IoU (GIoU)、Distance-IoU (DIoU) 或 Complete-IoU (CIoU))。这些先进的基于 IoU 的损失有助于模型学习预测边界框,这些边界框不仅重合度高,而且还考虑了中心间距离和长宽比一致性等因素,与传统的回归损失相比,收敛速度更快,定位性能更好。您可以在我们的文档中找到不同YOLO 模型之间的详细比较。
在模型训练和超参数调整过程中监控 IoU 可以帮助开发人员完善模型,从而实现更好的定位。Ultralytics HUB等工具可以跟踪 IoU 和其他指标,从而简化模型改进周期。尽管标准 IoU 用途广泛,但有时并不敏感,特别是对于非重叠方框或尺度差异很大的方框。这就促使人们开发了上述 IoU 变体。尽管如此,IoU 仍然是计算机视觉评估的基石,也是深度学习 (DL) 的关键概念。