术语表

混淆矩阵

通过混淆矩阵了解模型性能。探索改进人工智能分类准确性的指标、实际用途和工具。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

混淆矩阵是机器学习(ML)中的一种基本工具,专门用于评估分类模型的性能。它简明扼要地概括了模型的预测结果与不同类别的实际真实标签的匹配程度。通过可视化每个类别的正确和错误预测计数,它提供了比单纯的准确性更深入的见解,帮助实践者了解其模型所犯的具体错误类型。

了解各组成部分

混淆矩阵将一组测试数据的预测类标签与实际类标签进行比较。对于二元分类问题(两个类别,如阳性/阴性),矩阵通常包含四个关键值:

  • 真阳性 (TP):正确预测为阳性的实例数量。
  • 真阴性 (TN):正确预测为阴性的实例数量。
  • 假阳性 (FP):也称为 I 类错误。错误预测为阳性(实际上为阴性)的实例数量。
  • 假阴性 (FN):也称为第二类错误。错误地预测为 "阴性"(实际上为 "阳性")的实例数量。

这四个部分构成了计算各种性能指标的基础。对于多类分类问题,矩阵会扩大,显示所有类别之间的相互作用。

为什么要使用混淆矩阵?

虽然总体准确率能提供性能的总体感知,但它可能会产生误导,尤其是在不平衡的数据集上,一个类别的数量明显多于其他类别。混淆矩阵能提供更精细的视图:

  • 识别错误类型:它明确显示了模型是否混淆了特定类别,并区分了假阳性和假阴性,这两种类型通常会产生不同的实际后果。
  • 计算关键指标:这是计算精确度召回率(灵敏度)、特异性和F1 分数等关键评估指标的基础。了解这些指标至关重要,《YOLO 性能指标指南对此进行了介绍。
  • 模型改进:通过突出特定的弱点(如关键类别的高 FN 率),指导模型微调数据扩充工作。有关模型评估和微调的指南可提供更多见解。

实际应用

混淆矩阵广泛应用于人工智能(AI)的各个领域:

  1. 医疗诊断:医学成像中的肿瘤检测等应用中,混淆矩阵有助于评估人工智能模型。假阴性(漏检肿瘤)可能会造成严重后果,而假阳性(将健康组织标记为肿瘤)则可能导致不必要的压力和进一步检测。分析矩阵有助于平衡这些风险。您可以了解有关医疗保健领域人工智能解决方案的更多信息。
  2. 垃圾邮件过滤:电子邮件服务使用分类器对垃圾邮件进行分类。混淆矩阵可评估过滤器的性能。假阳性(将合法电子邮件归类为垃圾邮件)往往比假阴性(让垃圾邮件通过)更成问题。矩阵有助于调整过滤器以达到理想的平衡,从而促进有效的电子邮件过滤技术

混淆矩阵与其他指标的比较

重要的是要将混淆矩阵与相关的评估工具区分开来:

  • 准确度:代表总体正确性的单一百分比。它不会详细说明模型是如何出错的。
  • 精确度、召回率、F1 分数:这些数值混淆矩阵值(TP、FP、FN、TN)计算得出,用于总结特定方面的性能。
  • ROC 曲线显示不同分类阈值下真阳性率(召回率)和假阳性率之间权衡的图形。虽然源自类似的基本概念,但它直观地显示了不同阈值的性能,而不是像混淆矩阵那样显示单一阈值下的原始计数。

在Ultralytics中的应用

在训练 Ultralytics YOLO等模型时,会在验证阶段(Val 模式)自动生成混淆矩阵。这些矩阵可以帮助用户直观地了解模型在COCO等数据集或自定义数据集中不同类别上的表现。Ultralytics HUB等工具提供了训练模型和分析结果(包括混淆矩阵)的环境,以便全面了解模型评估情况。要深入了解实践中的混淆矩阵,Scikit-learn 文档等资源提供了更多示例。

阅读全部