术语表

标签平滑

利用标签平滑技术提高人工智能模型的准确性和稳健性--这是一种经过验证的技术,可提高概括性并减少过度自信。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

标签平滑是一种正则化技术,主要用于机器学习(ML)深度学习(DL)中的分类任务。其主要目的是防止模型对基于训练数据的预测过于自信。在使用监督学习的标准分类训练中,模型通常使用 "硬 "标签进行训练,这些标签通常以单击编码格式表示,其中正确类别的概率为 1,所有其他类别的概率为 0。标签平滑将这些硬目标修改为 "软 "目标,略微降低分配给正确类别的置信度,并在错误类别中分配少量概率质量。这就促使模型变得不那么确定,并有可能更好地泛化到未见过的数据中。

标签平滑的工作原理

标签平滑法不是严格地用 1 表示正确类别,用 0 表示其他类别(单次编码),而是调整这些目标概率。例如,如果我们有 K 和一个平滑系数 alpha,正确类别的目标概率变为 1 - alpha,每个错误类别的概率变为 alpha / (K-1).这种微小的调整意味着,如果模型在训练过程中对某一类别赋予了极高的概率(接近 1),就会受到惩罚,因为目标标签本身并不表示绝对的确定性。这种技术在《图像分类》一书中的高级图像分类模型训练中得到了广泛讨论。 "重新思考计算机视觉的初始架构

平滑标签的好处

实施标签平滑处理有几个好处:

  • 提高泛化能力:通过防止模型过于专注于训练数据中的精确模式(减少过拟合),它往往能在新的未见数据上表现得更好。泛化是 ML 的一个关键目标。
  • 更好的模型校准:使用标签平滑法训练的模型所产生的概率分数往往能更好地反映预测正确的真实可能性。这意味着 80% 的预测置信度更有可能对应 80% 的实际准确度。了解模型校准对于可靠的人工智能系统至关重要。
  • 减少过度自信:它直接解决了模型将近乎绝对的确定性赋予预测的问题,而这在存在不确定性的实际应用中可能会造成问题。过度自信会导致决策失误。
  • 正则化效应:它是一种正则化形式,与 dropout 或权重衰减等技术类似,通过在标签中添加噪声,从而限制所学模型权重的复杂性。

应用与实例

标签平滑法广泛应用于各个领域的分类场景:

  1. 图像分类:在大规模图像分类任务中,例如在ImageNet 数据集上进行训练时,标签平滑有助于模型更好地泛化,并在验证集上获得更高的准确率。在训练过程中,Vision Transformers (ViT)等模型经常受益于这种技术。您可以使用Ultralytics HUB 等工具训练分类模型。
  2. 自然语言处理 (NLP):在使用Transformers等模型的机器翻译或文本分类等任务中,标签平滑可以防止模型对特定词语的预测或分类过于确定,从而提高性能,尤其是考虑到语言固有的模糊性。
  3. 语音识别:与 NLP 类似,语音识别模型也可受益于标签平滑,以处理训练数据中的发音变化和潜在的转录不准确性。

虽然标签平滑等技术并不总是对每种架构都有明确的详细说明,但它们往往是最先进模型的标准训练配方的一部分,其中可能包括物体检测模型,如 Ultralytics YOLO等物体检测模型,尽管其影响可能因具体任务和数据集而异。

相关概念

  • 一热编码:表示分类标签的标准方法,其中标签平滑化引入了修改。一热编码将 1 赋值给真实类别,将 0 赋值给其他类别。
  • 知识提炼:这种技术也使用软目标,但目标不同。知识蒸馏法使用一个较大的、预先训练好的 "教师 "模型的概率输出作为软标签,来训练一个较小的 "学生 "模型,从而传递所学知识。标签平滑是一种在标准训练中应用的自包含正则化技术。
  • 损失函数标签平滑通常与交叉熵损失函数结合使用,对计算损失时所依据的目标分布进行修改。
  • 正则化:它属于正则化技术的大类,旨在改善模型泛化和防止过拟合。其他例子包括Dropout和 L1/L2 正则化。

考虑因素

标签平滑虽然有益,但需要谨慎应用。平滑因子(alpha)是一个需要调整的超参数;太小的值可能影响不大,而太大的值则可能使标签信息量过少,从而阻碍学习。它对模型校准的影响虽然通常是积极的,但应针对具体应用进行评估,在某些情况下可能需要采用事后校准方法。这是一种简单而有效的工具,在现代深度学习框架(PyTorchTensorFlow.

阅读全部