术语表

F1 分数

了解 F1 分数在机器学习中的重要性!了解它如何平衡精度和召回率,以优化模型评估。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

F1 分数是机器学习(ML)和统计分析中广泛使用的指标,用于评估二元或多类分类模型的性能。它提供了一种将模型的精确度Precision)和召回率(Recall)合并为单一指标的方法,提供了比单独的精确度Accuracy)更稳健的评估,尤其是在处理不平衡数据集或与误报和误报相关的成本差异很大时。

了解精确度和召回率

在深入了解 F1 分数之前,了解其组成部分至关重要:

  • 精确度该指标回答的问题是"在模型预测为阳性的所有实例中,有多少是真正的阳性?它侧重于阳性预测的正确性,最大限度地减少误报(I 类错误)。当假阳性的代价较高时,高精度就显得尤为重要。
  • 召回率(灵敏度或真阳性率):该指标回答的问题是"在所有实际的阳性实例中,模型正确识别了多少?它的重点是找到所有相关实例,尽量减少假阴性(第二类错误)。当错过一个正向实例的代价很高时,高召回率就显得至关重要。

这些指标通过混淆矩阵得出的真阳性 (TP)、假阳性 (FP) 和假阴性 (FN) 计数来计算。

F1 分数为何重要

仅凭准确率可能会产生误导,尤其是在不平衡的数据集上。例如,如果一个数据集有 95% 的负面实例和 5% 的正面实例,那么一个总是预测 "负面 "的模型就会达到 95% 的准确率,但对于识别正面案例却毫无用处(召回率为零)。

F1 分数通过计算精确度和召回率的调和平均值来解决这个问题。与简单的算术平均数相比,调和平均数对极端值的惩罚更大。因此,高 F1-Score 需要高精确度和高召回率,以确保两者之间的平衡。它的范围从 0(最差)到 1(最佳)。

F1 分数的应用

F1 分数是许多人工智能和 ML 领域的标准评估指标:

F1 分数与相关指标

  • 准确性衡量总体正确性。适用于平衡数据集,但对不平衡数据集会产生误导。
  • 精确度侧重于正面预测的质量(最大限度地减少 FP)。
  • 召回重点关注找到的实际阳性数量(最小化 FN)。
  • 平均精度 (mAP):对象检测和排序问题中的一种常用指标,是不同召回阈值和/或类别的平均精度。与通常评估单点的 F1 分数不同,它能更广泛地反映不同操作点的性能。
  • 曲线下面积 (AUC):通常指ROC 曲线下的面积,总结了所有分类阈值下的模型性能。

选择正确的指标取决于具体问题,以及尽量减少误报与误报的相对重要性。Ultralytics HUB等工具可以在模型训练和评估过程中跟踪包括 F1 分数在内的多个指标,帮助用户做出明智的决策。了解Ultralytics 教程,获取模型评估的实用指导。

阅读全部