利用标签平滑技术提高人工智能模型的准确性和稳健性--这是一种经过验证的技术,可提高概括性并减少过度自信。
标签平滑是机器学习(ML)和深度学习(DL)中分类模型训练过程中使用的一种正则化技术。其主要目的是防止模型在预测时变得过于自信。标签平滑使用 "软 "标签,而不是使用 "硬 "标签(即正确类别的概率为 1,所有其他类别的概率为 0)来训练模型。这意味着正确类别的概率会稍低一些(例如 0.9),剩余的小概率会平均分配给不正确的类别。这种技术鼓励模型降低预测的确定性,从而在未见数据上实现更好的泛化并提高性能。对初始架构的反思》一文中对此进行了详细讨论。
在标准分类任务中,模型通常使用损失函数(如交叉熵)进行训练,该函数根据模型预测的概率分布与目标分布(硬标签)的距离对模型进行惩罚。使用硬标签时,模型会被逼迫使正确类别的输出概率极其接近 1,而其他类别的输出概率则接近 0。这可能会导致过拟合,即模型对训练数据(包括噪声)的学习效果太好,而在新数据上的表现却很差。标签平滑通过给错误类别分配一个小概率值(ε)来修改目标标签,并通过分配的总量来降低正确类别的概率。这可以防止模型为正确类别生成过大的对数值,从而提高模型的可信度,使其可能更加稳健。
标签平滑技术应用广泛,尤其适用于不同领域的分类任务:
虽然标签平滑一般来说是有益的,但在训练过程中可能会略微减慢模型的收敛速度。其好处的程度也取决于数据集和模型结构。平滑因子(epsilon)本身是一个超参数,可能需要调整才能获得最佳结果。它通常集成在Ultralytics HUB 等现代框架和平台的训练管道中。