术语表

规范化

利用 L1、L2、Dropout 和早期停止等正则化技术防止过拟合,提高模型泛化能力。了解更多

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

正则化是机器学习(ML)中使用的一系列技术,旨在防止一个常见的问题,即过拟合。当模型过于精确地学习训练数据的细节,包括噪音和随机波动时,就会出现过拟合。过度关注训练数据会阻碍模型在新的、未见过的数据上表现良好,这种能力被称为泛化。正则化方法通过增加与模型复杂度相关的惩罚,鼓励模型学习更有可能广泛应用的简单模式。这对于开发强大的人工智能模型至关重要,尤其是在计算机视觉(CV)自然语言处理(NLP)等领域。

在机器学习中的重要性

正则化对于训练可靠的 ML 模型至关重要,尤其是像深度学习(DL)模型和神经网络(NN)这样的复杂模型。如果没有正则化,这些模型可能只是简单地记忆训练示例,而不是学习底层模式。这会导致训练集上的准确率很高,但在验证数据上进行评估或部署到实际场景中时,准确率却很低。通过在损失函数中加入惩罚项或修改训练过程,正则化有助于管理模型权重的大小。这可以有效简化模型,增强其泛化能力。在很好地拟合数据和保持模型简洁性之间的这种谨慎平衡,是偏差-方差权衡的一个关键方面。对于诸如 Ultralytics YOLO等模型而言,应用正则化技术对于在实时物体检测等要求苛刻的任务中实现高性能大有裨益。

常用正则化技术

有几种正则化技术被广泛采用:

  • L1 正则化(Lasso):添加与模型权重绝对值成比例的惩罚。这将鼓励稀疏性,即某些权重可能正好为零,从而有效地进行特征选择了解有关 Lasso 回归的更多信息
  • L2 正则化(Ridge):添加与模型权重平方成比例的惩罚。这往往会使权重趋于零,但很少会使权重完全为零,有助于防止多重共线性等问题。了解有关岭回归的更多信息
  • 剔除层在训练过程中,每个更新步骤都会随机将一部分神经元的输出设置为零。这可以防止网络过于依赖任何一个神经元,从而迫使它学习更强大的功能。详情请阅读Dropout 原文。有关实际应用,请参阅模型训练技巧
  • 早期停止:在训练过程中监控模型在单独的验证数据集上的表现,并在该数据集上的表现不再改善或开始恶化时停止进程,防止模型过度拟合训练数据。这是深度学习工作流程中的常见做法。
  • 数据增强通过创建现有数据的修改副本(如旋转、裁剪或改变图像颜色),人为增加训练数据集的大小和多样性。这可以让模型接触到更广泛的变化,从而起到正则化的作用,帮助模型更好地泛化。探索各种数据增强技术,浏览Ultralytics 数据集以了解示例。

实际应用

正则化技术应用于众多人工智能领域:

  1. 医学图像分析:医学图像分析中,例如训练卷积神经网络(CNN)以检测核磁共振成像扫描中的肿瘤(使用脑肿瘤等数据集),数据集往往是有限的。L2 正则化和 Dropout 等技术有助于防止模型过度适应训练集中的特定患者扫描,从而对新患者做出更可靠的诊断。这对于人工智能在医疗保健领域的应用至关重要。
  2. 自动驾驶汽车: 自动驾驶汽车中的感知系统依靠YOLO11 等模型来检测行人、车辆和障碍物。正则化可确保这些模型能够很好地适应各种不可预测的实际驾驶条件(不同的光线、天气和物体外观),这对安全至关重要。探索人工智能在汽车领域的应用
  3. 金融预测:在建立预测股市趋势或评估信贷风险的模型时,可以使用 L1 正则化。通过将不太重要的特征的权重缩减为零,它可以帮助选择最有影响力的经济指标,从而建立更简单、更易解释、可能更稳健的预测模型,用于金融领域的人工智能

与相关概念的区别

将正则化与其他相关的 ML 概念区分开来非常重要:

  • 优化算法 梯度下降算法(Gradient Descent 随机梯度下降算法(SGD)亚当优化器(Adam Optimizer 等优化算法都是在训练过程中用于最小化损失函数并找到最佳模型参数集的程序。而正则化则是修改目标(损失函数本身或训练程序),在最小化训练误差的同时优先考虑泛化。优化会找到一个解决方案;正则化则有助于确保它是一个适用于未见数据的良好解决方案。
  • 超参数调整这是在训练过程开始前为模型或训练算法选择最佳配置设置的过程。这些设置称为超参数,包括学习率、神经网络的层数或正则化惩罚的强度(如 L1/L2 中的 lambda 值)等。正则化是一种在训练过程中应用的技术,而超参数调优则是该技术和其他技术的参数进行优化。Ultralytics HUB平台等工具提供了自动超参数调整功能。
阅读全部