术语表

规范化

利用 L1、L2、Dropout 和早期停止等正则化技术防止过拟合,提高模型泛化能力。了解更多

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

正则化是机器学习(ML)中使用的一套技术,用于防止常见的过拟合问题。当模型对训练数据(包括噪声和随机波动)学习得太好时,就会出现过拟合,从而对模型在新的未知数据上的性能产生负面影响。正则化方法引入了对模型复杂性的惩罚,鼓励模型学习更简单的模式,从而更好地泛化到新数据中。这对于建立稳健的人工智能模型至关重要,包括计算机视觉(CV)自然语言处理(NLP)中使用的模型。

在机器学习中的重要性

正则化是训练可靠的 ML 模型,尤其是深度学习(DL)模型和神经网络(NN)等复杂模型的基础。如果没有正则化,这些模型很容易记住训练数据,而不是学习底层模式。这会导致在训练集上的准确率很高,但在验证数据或真实世界输入上的表现却很差。通过在损失函数中添加惩罚项,正则化有助于控制模型权重的大小,从而有效简化模型并提高其泛化能力。通常在偏差-方差权衡的背景下讨论拟合数据与保持简单性之间的这种平衡。对于像 Ultralytics YOLO这样的模型,正则化有助于在要求苛刻的任务(如实时物体检测)中实现高精度

常用正则化技术

有几种正则化技术得到了广泛应用:

  • L1 正则化(Lasso):添加等于系数大小绝对值的惩罚。这会导致某些权重恰好为零,从而有效地进行特征选择。了解有关 Lasso 回归的更多信息
  • L2 正则化(Ridge):添加等于系数大小平方的惩罚。它将权重向零缩小,但很少使权重完全为零。了解有关岭回归的更多信息
  • 丢弃层(Dropout Layer):滤除层主要用于神经网络,在训练过程中会随机将一部分神经元输出设置为零。这可以防止神经元过多地共同适应,并迫使网络学习更稳健的特征。详情请查看原始的 "剔除 "论文
  • 早期停止:在训练过程中监控模型在验证集上的表现,并在表现停止改善时停止训练过程,防止模型在训练过程中过度拟合。这是模型训练技巧中常用的一种做法。
  • 数据增强通过对现有数据进行随机变换(如旋转、缩放、裁剪),增加训练数据的多样性。这有助于提高模型对此类变化的不变性。探索数据增强技术

与相关概念的区别

正规化有别于其他重要的 ML 概念:

  • 优化算法 梯度下降亚当优化器等算法用于最小化损失函数,并在训练过程中更新模型参数。正则化通过添加惩罚项来修改损失函数,引导优化过程向更简单的模型靠拢,但它本身并不是优化算法。
  • 超参数调整这包括为模型找到最佳超参数(如学习率、层数),通常使用网格搜索等技术或Ultralytics HUB 等平台提供的自动方法。正则化的强度(如 L1/L2 中的惩罚系数)本身就是一个需要调整的超参数,但正则化是一种应用技术,而超参数调整则是将其强度与其他参数一起设置的过程。

实际应用

正则化技术对许多人工智能应用的实际成功至关重要:

示例 1:图像分类

图像分类中,像 CNN 这样的深度神经网络可能有数百万个参数。如果没有正则化(如 Dropout 或 L2),这些模型很容易对 ImageNet 等数据集产生过拟合。正则化有助于确保模型学习一般的视觉特征(边缘、纹理、形状),而不是记忆特定的训练图像,从而提高从医学图像分析到自动驾驶等应用中遇到的新图像的分类准确性。了解如何在计算机视觉项目中解决过拟合问题。

示例 2:自然语言处理

在情感分析或机器翻译等 NLP 任务中,Transformers 等模型也会出现过度拟合的问题,尤其是在训练数据有限的情况下。正则化技术(包括剔除和权重衰减 (L2))的应用可以防止模型过于依赖仅存在于训练语料库中的特定单词或短语。这就提高了模型在聊天机器人或内容摘要工具等真实世界场景中更有效地理解和生成人类语言的能力。

阅读全部