术语表

F1 分数

了解 F1 分数在机器学习中的重要性!了解它如何平衡精度和召回率,以优化模型评估。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

F1 分数是机器学习(ML)信息检索中广泛使用的指标,用于评估二元分类模型的性能。它提供了一个平衡其他两个重要指标(精确度召回率)的单一分数。这种平衡使得 F1 分数在类别分布不均衡(不平衡数据集)或误报和误报都会带来巨大代价的情况下特别有价值。它的计算方法是精确度和召回率的调和平均值,范围在 0 和 1 之间,其中 1 代表完美的精确度和召回率。

了解精确度和召回率

要掌握 F1 分数,就必须了解其组成部分:

  • 精确度衡量正面预测的准确性。它回答的问题是"在模型预测为阳性的所有实例中,有多少是真正的阳性?高精度意味着模型很少出现假阳性错误。
  • 召回率(灵敏度)衡量模型识别所有实际正例的能力。它回答的问题是"在所有实际的阳性实例中,模型正确识别了多少?高召回率意味着模型很少出现假阴性错误。

F1 分数通过计算两者的调和平均值将两者结合起来。与简单的平均值不同,调和平均值对极端值的惩罚更重,这意味着一个模型必须在精确度和召回率方面有相当好的表现,才能获得较高的 F1 分数。

为什么使用 F1 分数?

虽然准确率(总体预测正确率)是一个常用指标,但它可能会产生误导,尤其是在不平衡的数据集上。例如,如果只有 1% 的数据点属于正向类别,那么预测所有数据为负向的模型就会达到 99% 的准确率,但在识别正向类别方面却完全失败。

F1 分数通过精确度和召回率关注正类性能,从而解决了这一问题。在以下情况下,F1 分数更受青睐

  1. 存在阶级失衡:当一个阶级的人数大大超过另一个阶级时,它能提供比准确性更好的评估。
  2. 假阳性和假阴性都很重要:在一些情况下,最大限度地减少这两类错误至关重要,F1-Score 的平衡作用可使这些情况受益匪浅。在优化精确度或召回率之间做出选择,往往需要权衡利弊;F1-Score 可帮助找到一个能在精确度和召回率之间取得平衡的模型。

F1-Score 在行动:实际案例

F1 分数在各种人工智能(AI)应用中至关重要:

  1. 用于疾病检测的医学图像分析考虑使用计算机视觉 (CV) 从扫描图像中检测癌症肿瘤的人工智能模型。

    • 假阴性(召回率低)意味着在癌症出现时未能检测出来,这会给患者带来严重后果。
    • 假阳性(精确度低)意味着在没有癌症的情况下诊断出癌症,从而导致不必要的压力、费用和进一步的侵入性检查。
    • F1 分数有助于评估人工智能医疗解决方案中使用的模型,确保在捕捉实际病例(召回率)和避免误诊(精确率)之间取得平衡。训练此类模型可能会涉及脑肿瘤检测数据集等数据集
  2. 垃圾邮件过滤电子邮件服务使用分类模型来识别垃圾邮件。

    • 要尽可能多地拦截垃圾邮件,就需要高召回率。遗漏的垃圾邮件(假阴性)会让用户恼火。
    • 高精度对于避免将合法电子邮件("火腿")标记为垃圾邮件(假阳性)至关重要。对重要电子邮件的错误分类可能会造成严重问题。
    • F1 分数为评估垃圾邮件过滤器的整体有效性提供了一个合适的衡量标准,既能过滤垃圾邮件,又不会丢失重要信息。这涉及自然语言处理(NLP)技术。

F1 分数与相关指标的比较

必须将 F1 分数与其他评价指标区分开来:

  • 准确性衡量总体正确性,但对于不平衡的类别可能不可靠。
  • 精确度召回率F1-Score 将两者结合起来。当尽量减少误报率是关键时,使用精确度;当尽量减少误报率是最重要时,使用召回率。
  • 平均精度 (mAP): 物体检测任务的主要指标,如 Ultralytics YOLOmAP 是不同召回率水平下的平均精度,通常跨越多个对象类别和交叉联合(IoU)阈值。虽然 mAP 与精确度和召回率相关,但它专门评估对象检测性能,同时考虑分类和定位。您可以探索YOLO 性能指标,了解更多详情。请参阅YOLO11 与YOLOv8模型的比较,这些比较通常都依赖于 mAP。
  • 交集大于联合(IoU)测量物体检测中预测边界框与地面实况边界框之间的重叠程度。它评估的是定位质量,而不是像 F1 分数那样直接评估分类性能。
  • 混淆矩阵分类性能汇总表,显示真阳性、真阴性、假阳性和假阴性,并从中得出精度、召回率、准确率和 F1 分数。

Ultralytics 生态系统中的 F1 分数

在Ultralytics 生态系统中,虽然 mAP 是评估物体检测模型的标准,如 YOLO11在 Ultralytics 生态系统中,虽然 mAP 是评估 YOLO11 等物体检测模型的标准,但在评估分类任务能力或评估检测或分割问题中特定类别的性能时,F1 分数也很重要,尤其是在类别不平衡的情况下。Ultralytics HUB等工具有助于在模型评估过程中训练自定义模型和跟踪各种性能指标。了解 F1 分数等指标有助于使用超参数调整等技术对模型进行微调,以满足特定需求。框架,如 PyTorch等框架和Scikit-learn等库提供了计算 F1 分数的实现方法。

阅读全部