术语表

混淆矩阵

通过混淆矩阵了解模型性能。探索改进人工智能分类准确性的指标、实际用途和工具。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

混淆矩阵是一种用于监督学习的性能测量工具,尤其适用于分类问题。它通过比较一组测试数据的预测分类和实际真实分类,全面总结了分类模型的性能。这种可视化不仅有助于了解模型的整体正确性,还有助于了解模型的错误类型(即模型 "混乱 "的地方)。它在机器学习(ML)人工智能(AI)中尤其有用,可用于评估为图像分类物体检测等任务而训练的模型。

了解组件

混淆矩阵通常以正方形网格的形式呈现,其中每一行代表一个实际类别中的实例,每一列代表一个预测类别中的实例(反之亦然)。对于简单的二元分类问题(两个类别,如阳性和阴性),矩阵有四个单元格:

  • 真阳性 (TP):模型正确预测了阳性类别。
  • 真阴性 (TN):模型正确预测了阴性类别。
  • 假阳性 (FP) (I 类错误):模型错误地预测了阳性类别(预测为阳性,但实际类别为阴性)。
  • 假阴性 (FN) (第二类错误):模型错误地预测了负类(预测为负,但实际为正)。

这四个组成部分构成了计算各种绩效指标的基础。

与其他评价指标的关系

虽然混淆矩阵提供了详细的细目,但也从中得出了几个关键指标来概括绩效:

  • 准确性:总预测正确率(TP + TN)/(TP + TN + FP + FN)。虽然简单,但对于不平衡的数据集可能会产生误导。
  • 精确度:衡量正面预测的准确性。tp / (tp + fp)。它的答案是"在所有预测为阳性的实例中,实际有多少是阳性的?
  • 召回(灵敏度或真阳性率):衡量模型识别实际阳性实例的能力。TP / (TP + FN)。它的答案是"在所有实际阳性实例中,模型正确识别了多少?
  • F1 评分:精确度和召回率的调和平均值,提供了平衡这两个方面的单一分数。
  • 特异性(真阴性率):衡量模型识别实际阴性实例的能力。tn / (tn + fp)。
  • 接收器工作特性曲线 (ROC):绘制不同阈值设置下的真阳性率(召回率)与假阳性率(1 - 特异性)的对比图,总结不同决策阈值下的性能。

了解混淆矩阵有助于为特定问题选择最相关的指标,尤其是当不同类型错误(FP 与 FN)的成本差异很大时。您可以在我们的YOLO 性能指标指南中了解更多相关信息。

在Ultralytics中的应用

在训练 Ultralytics YOLO等模型时,会在验证阶段(Val 模式)自动生成混淆矩阵。这些矩阵可以帮助用户直观地了解模型在COCO等数据集或自定义数据集中不同类别上的表现。Ultralytics HUB等平台提供了用于训练模型、管理数据集和分析结果(包括混淆矩阵)的集成环境,以便全面了解模型评估情况。这样就能快速确定模型难以处理的类别,为进一步增加数据调整超参数提供信息。像 PyTorchTensorFlow等框架通常集成了生成这些矩阵的工具。

实际应用

混淆矩阵在许多领域都至关重要:

  1. 医学诊断:在评估一个用于从医学图像中检测癌症等疾病的模型时,混淆矩阵至关重要。假阴性(在癌症存在时未能检测出癌症)可能会造成严重后果,其严重程度可能超过假阳性(在癌症不存在时检测出癌症,导致进一步检查)。分析矩阵有助于根据临床需要平衡精确度召回率。有关更多信息,请参阅美国国立卫生研究院(NIH)有关医学成像的资源。这是人工智能在医疗保健领域的一个关键领域。
  2. 垃圾邮件检测:对于垃圾邮件过滤器来说,混淆矩阵有助于评估其性能。对用户来说,假阳性(将合法邮件归类为垃圾邮件)可能比假阴性(让垃圾邮件通过)更麻烦。矩阵会详细说明每种错误的发生频率,从而指导模型的调整。您可以利用这些技术探索垃圾邮件检测方面的研究,这些技术通常涉及自然语言处理 (NLP)。其他应用包括欺诈检测和评估安全系统中的模型。

优点和局限性

混淆矩阵的主要优势在于,除了单一的准确率得分外,它还能提供详细的、按类划分的模型性能。它能清楚地显示出模型的 "混乱 "之处,对于调试和改进分类模型至关重要,尤其是在类别不平衡或与错误相关的成本不同的情况下。它支持数据可视化,便于解释。其局限性在于,对于具有大量类别的问题(如 ImageNet 等大型数据集中的问题),矩阵可能会变得很大,如果没有聚合或专门的可视化技术,就很难进行可视化解释。

总之,混淆矩阵是有监督学习中不可或缺的评估工具,为开发稳健可靠的计算机视觉(CV)和其他ML模型提供了至关重要的见解。了解其组成部分是在Ultralytics HUB 等平台上进行有效模型评估和迭代的关键。

阅读全部