术语表

标签平滑

利用标签平滑技术提高人工智能模型的准确性和稳健性--这是一种经过验证的技术,可提高概括性并减少过度自信。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

标签平滑是机器学习(ML)深度学习(DL)中分类模型训练过程中使用的一种正则化技术。其主要目的是防止模型在预测时变得过于自信。标签平滑使用 "软 "标签,而不是使用 "硬 "标签(即正确类别的概率为 1,所有其他类别的概率为 0)来训练模型。这意味着正确类别的概率会稍低一些(例如 0.9),剩余的小概率会平均分配给不正确的类别。这种技术鼓励模型降低预测的确定性,从而在未见数据上实现更好的泛化并提高性能。对初始架构的反思》一文中对此进行了详细讨论。

标签平滑的工作原理

在标准分类任务中,模型通常使用损失函数(如交叉熵)进行训练,该函数根据模型预测的概率分布与目标分布(硬标签)的距离对模型进行惩罚。使用硬标签时,模型会被逼迫使正确类别的输出概率极其接近 1,而其他类别的输出概率则接近 0。这可能会导致过拟合,即模型对训练数据(包括噪声)的学习效果太好,而在新数据上的表现却很差。标签平滑通过给错误类别分配一个小概率值(ε)来修改目标标签,并通过分配的总量来降低正确类别的概率。这可以防止模型为正确类别生成过大的对数值,从而提高模型的可信度,使其可能更加稳健。

平滑标签的好处

  • 改进泛化:通过抑制过度自信,模型通常能更好地概括未见数据。
  • 更好的模型校准:预测概率往往能更准确地反映正确性的真实可能性。您可以了解统计学中有关模型校准的更多信息。
  • 增强鲁棒性:模型对噪声标签或输入数据的微小变化具有更强的适应能力。
  • 减少过拟合:它充当正则化器,帮助减少过拟合,其原理与DropoutData Augmentation 等技术类似,不过它直接对目标标签进行操作。

标签平滑的应用

标签平滑技术应用广泛,尤其适用于不同领域的分类任务:

  • 图像分类在大型数据集(如ImageNet)上训练深度神经网络(如Ultralytics YOLO 模型)时,标签平滑化有助于提高验证精度。这在医学图像分析等领域尤其有用,因为在这些领域,校准概率估计非常重要。
  • 自然语言处理 (NLP)机器翻译或训练BERTGPT 等大型语言模型(LLM) 等任务中,标签平滑有助于提高模型的流畅性和通用性,防止模型对特定单词的预测赋予绝对的确定性。像 PyTorchTensorFlow等框架通常在其损失函数中包含标签平滑选项。

考虑因素

虽然标签平滑一般来说是有益的,但在训练过程中可能会略微减慢模型的收敛速度。其好处的程度也取决于数据集和模型结构。平滑因子(epsilon)本身是一个超参数,可能需要调整才能获得最佳结果。它通常集成在Ultralytics HUB 等现代框架和平台的训练管道中。

阅读全部