通过混淆矩阵了解模型性能。探索改进人工智能分类准确性的指标、实际用途和工具。
混淆矩阵是一种用于监督学习的性能测量工具,尤其适用于分类问题。它通过比较一组测试数据的预测分类和实际真实分类,全面总结了分类模型的性能。这种可视化不仅有助于了解模型的整体正确性,还有助于了解模型的错误类型(即模型 "混乱 "的地方)。它在机器学习(ML)和人工智能(AI)中尤其有用,可用于评估为图像分类或物体检测等任务而训练的模型。
混淆矩阵通常以正方形网格的形式呈现,其中每一行代表一个实际类别中的实例,每一列代表一个预测类别中的实例(反之亦然)。对于简单的二元分类问题(两个类别,如阳性和阴性),矩阵有四个单元格:
这四个组成部分构成了计算各种绩效指标的基础。
虽然混淆矩阵提供了详细的细目,但也从中得出了几个关键指标来概括绩效:
了解混淆矩阵有助于为特定问题选择最相关的指标,尤其是当不同类型错误(FP 与 FN)的成本差异很大时。您可以在我们的YOLO 性能指标指南中了解更多相关信息。
在训练 Ultralytics YOLO等模型时,会在验证阶段(Val 模式)自动生成混淆矩阵。这些矩阵可以帮助用户直观地了解模型在COCO等数据集或自定义数据集中不同类别上的表现。Ultralytics HUB等平台提供了用于训练模型、管理数据集和分析结果(包括混淆矩阵)的集成环境,以便全面了解模型评估情况。这样就能快速确定模型难以处理的类别,为进一步增加数据或调整超参数提供信息。像 PyTorch和 TensorFlow等框架通常集成了生成这些矩阵的工具。
混淆矩阵在许多领域都至关重要:
混淆矩阵的主要优势在于,除了单一的准确率得分外,它还能提供详细的、按类划分的模型性能。它能清楚地显示出模型的 "混乱 "之处,对于调试和改进分类模型至关重要,尤其是在类别不平衡或与错误相关的成本不同的情况下。它支持数据可视化,便于解释。其局限性在于,对于具有大量类别的问题(如 ImageNet 等大型数据集中的问题),矩阵可能会变得很大,如果没有聚合或专门的可视化技术,就很难进行可视化解释。
总之,混淆矩阵是有监督学习中不可或缺的评估工具,为开发稳健可靠的计算机视觉(CV)和其他ML模型提供了至关重要的见解。了解其组成部分是在Ultralytics HUB 等平台上进行有效模型评估和迭代的关键。