利用标签平滑技术提高人工智能模型的准确性和稳健性--这是一种经过验证的技术,可提高概括性并减少过度自信。
标签平滑是一种正则化技术,主要用于机器学习(ML)和深度学习(DL)中的分类任务。其主要目的是防止模型对基于训练数据的预测过于自信。在使用监督学习的标准分类训练中,模型通常使用 "硬 "标签进行训练,这些标签通常以单击编码格式表示,其中正确类别的概率为 1,所有其他类别的概率为 0。标签平滑将这些硬目标修改为 "软 "目标,略微降低分配给正确类别的置信度,并在错误类别中分配少量概率质量。这就促使模型变得不那么确定,并有可能更好地泛化到未见过的数据中。
标签平滑法不是严格地用 1 表示正确类别,用 0 表示其他类别(单次编码),而是调整这些目标概率。例如,如果我们有 K
和一个平滑系数 alpha
,正确类别的目标概率变为 1 - alpha
,每个错误类别的概率变为 alpha / (K-1)
.这种微小的调整意味着,如果模型在训练过程中对某一类别赋予了极高的概率(接近 1),就会受到惩罚,因为目标标签本身并不表示绝对的确定性。这种技术在《图像分类》一书中的高级图像分类模型训练中得到了广泛讨论。 "重新思考计算机视觉的初始架构 纸
实施标签平滑处理有几个好处:
标签平滑法广泛应用于各个领域的分类场景:
虽然标签平滑等技术并不总是对每种架构都有明确的详细说明,但它们往往是最先进模型的标准训练配方的一部分,其中可能包括物体检测模型,如 Ultralytics YOLO等物体检测模型,尽管其影响可能因具体任务和数据集而异。
标签平滑虽然有益,但需要谨慎应用。平滑因子(alpha)是一个需要调整的超参数;太小的值可能影响不大,而太大的值则可能使标签信息量过少,从而阻碍学习。它对模型校准的影响虽然通常是积极的,但应针对具体应用进行评估,在某些情况下可能需要采用事后校准方法。这是一种简单而有效的工具,在现代深度学习框架(如 PyTorch和 TensorFlow.