利用 L1、L2、Dropout 和早期停止等正则化技术防止过拟合,提高模型泛化能力。了解更多
正则化是机器学习(ML)中使用的一套技术,用于防止常见的过拟合问题。当模型对训练数据(包括噪声和随机波动)学习得太好时,就会出现过拟合,从而对模型在新的未知数据上的性能产生负面影响。正则化方法引入了对模型复杂性的惩罚,鼓励模型学习更简单的模式,从而更好地泛化到新数据中。这对于建立稳健的人工智能模型至关重要,包括计算机视觉(CV)和自然语言处理(NLP)中使用的模型。
正则化是训练可靠的 ML 模型,尤其是深度学习(DL)模型和神经网络(NN)等复杂模型的基础。如果没有正则化,这些模型很容易记住训练数据,而不是学习底层模式。这会导致在训练集上的准确率很高,但在验证数据或真实世界输入上的表现却很差。通过在损失函数中添加惩罚项,正则化有助于控制模型权重的大小,从而有效简化模型并提高其泛化能力。通常在偏差-方差权衡的背景下讨论拟合数据与保持简单性之间的这种平衡。对于像 Ultralytics YOLO这样的模型,正则化有助于在要求苛刻的任务(如实时物体检测)中实现高精度。
有几种正则化技术得到了广泛应用:
正规化有别于其他重要的 ML 概念:
正则化技术对许多人工智能应用的实际成功至关重要:
在图像分类中,像 CNN 这样的深度神经网络可能有数百万个参数。如果没有正则化(如 Dropout 或 L2),这些模型很容易对 ImageNet 等数据集产生过拟合。正则化有助于确保模型学习一般的视觉特征(边缘、纹理、形状),而不是记忆特定的训练图像,从而提高从医学图像分析到自动驾驶等应用中遇到的新图像的分类准确性。了解如何在计算机视觉项目中解决过拟合问题。
在情感分析或机器翻译等 NLP 任务中,Transformers 等模型也会出现过度拟合的问题,尤其是在训练数据有限的情况下。正则化技术(包括剔除和权重衰减 (L2))的应用可以防止模型过于依赖仅存在于训练语料库中的特定单词或短语。这就提高了模型在聊天机器人或内容摘要工具等真实世界场景中更有效地理解和生成人类语言的能力。