术语表

F1 分数

了解 F1 分数在机器学习中的重要性!了解它如何平衡精度和召回率,以优化模型评估。

F1 分数是机器学习中广泛使用的指标,用于评估分类模型的性能。它巧妙地将其他两个重要指标--精确度和召回率--合并为一个值。作为精确度和召回率的调和平均值,F1 分数能更均衡地衡量模型的性能,尤其是在处理不平衡数据集时,其中一类的出现频率远高于另一类。在这种情况下,高精确度分数可能会产生误导,但 F1 分数能更好地反映模型在正确识别少数类别方面的有效性。

要完全掌握 F1 分数,就必须了解其组成部分。精确度回答的问题是:"在模型做出的所有正面预测中,有多少是真正正确的?而召回率则回答:"在所有实际的正向实例中,模型正确识别的有多少?F1 分数协调了这两个指标,惩罚了在一个指标上表现出色而在另一个指标上付出巨大代价的模型。F1 分数的最佳值为 1(精确度和召回率均为满分),最差值为 0。在许多实际应用中,假阳性和假阴性都会带来重大损失,因此这种平衡至关重要。在模型训练过程中跟踪这一指标是MLOps 的标准做法。

F1-Score 在行动:实际案例

在各种人工智能(AI)应用中,F1 分数至关重要,因为错误分类会造成严重后果:

  1. 用于疾病检测的医学图像分析考虑使用计算机视觉 (CV) 从扫描图像中检测癌症肿瘤的人工智能模型。

    • 假阴性(召回率低)意味着在癌症出现时未能检测出来,这会给患者带来严重后果。
    • 假阳性(精确度低)意味着在没有癌症的情况下诊断出癌症,从而导致不必要的压力、费用和进一步的侵入性检查。
    • F1 分数有助于评估人工智能医疗解决方案中使用的模型,确保在捕捉实际病例(召回率)和避免误诊(精确率)之间取得平衡。训练此类模型可能会涉及脑肿瘤检测数据集等数据集
  2. 垃圾邮件过滤电子邮件服务使用分类模型来识别垃圾邮件。

    • 要尽可能多地拦截垃圾邮件,就需要高召回率。遗漏的垃圾邮件(假阴性)会让用户感到厌烦。
    • 高精度对于避免将合法电子邮件("火腿")标记为垃圾邮件(假阳性)至关重要。对重要电子邮件的错误分类可能会造成严重问题。
    • F1 分数为评估垃圾邮件过滤器的整体有效性提供了一个合适的衡量标准,既能过滤垃圾邮件,又不会丢失重要信息。这通常涉及自然语言处理(NLP)技术。

F1 分数与其他指标的区别

了解 F1 分数与其他评估指标之间的区别是为项目选择正确指标的关键。

  • F1 分数与准确率: 准确率是正确预测数与预测总数的比率。虽然简单易懂,但在不平衡分类问题上表现不佳。在这种情况下,F1-分数通常更受青睐,因为它侧重于正类的表现。
  • F1 分数与精确度和召回率:F1 分数将精确度召回率合二为一。不过,根据应用目标的不同,您可能希望对其中一个指标进行优化,而不是另一个。例如,在机场安检中,最大限度地提高召回率(发现所有潜在威胁)比精确度更为重要。了解这种精确度与召回率之间的权衡是非常重要的。
  • F1 分数与平均精度 (mAP) 的对比:F1 分数评估的是特定置信度阈值下的分类性能,而 mAP 则是物体检测任务的标准指标。mAP 分数总结了不同阈值下的精度-召回曲线,对模型定位和分类对象的能力提供了更全面的评估。Ultralytics HUB等平台有助于在模型开发过程中跟踪这些指标。
  • F1 分数与AUC(曲线下面积)AUC 是根据接收者工作特征曲线(ROC)计算得出的,表示模型在所有可能的阈值下区分类别的能力。而 F1 分数则是针对单一的特定阈值计算的。

虽然 mAP 是Ultralytics YOLO11 等对象检测模型的主要指标,但 F1 分数对于这些模型执行图像分类任务也至关重要。扎实了解 F1 分数对于任何研究深度学习分类问题的开发人员来说都至关重要。您可以比较不同 YOLO 模型的性能,这些模型通常在COCO 等数据集上进行基准测试。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板