在机器学习(ML)领域,实现最佳模型性能需要在简单性和复杂性之间找到平衡。欠拟合是一个常见问题,即模型过于简单,无法捕捉到训练数据中存在的潜在模式。这意味着模型无法有效学习,导致不仅在训练数据上,而且在新的、未见过的数据(测试数据或真实世界输入)上都表现不佳。拟合不足的模型缺乏必要的能力或训练时间来准确表示数据中的关系,从而导致偏差较大,无法很好地泛化。
什么原因导致不匹配?
有几个因素可能导致模型拟合不足:
- 模型不够复杂:所选模型可能过于简单,无法满足数据的复杂性。例如,对非线性模式的数据使用基本的线性回归模型,或使用层数或神经元太少的神经网络 (NN)。
- 特征工程不足:提供给模型的输入特征可能没有包含足够的相关信息,或者不能有效地代表基本模式。
- 训练数据不足:模型可能没有看到足够的示例来学习底层模式。这对于复杂的深度学习模型来说尤其如此。拥有多样化、有代表性的数据至关重要,可以通过Ultralytics 数据集等平台进行探索。
- 训练时间太短:模型训练过程可能会过早停止,还没有足够的历时来学习数据中的模式。
- 过度正则化:用于防止过拟合的技术,如 L1 或 L2 正则化或高丢弃率,有时会过度约束模型,如果应用得过于强烈,就会阻止它学习必要的模式。
识别欠拟合
欠拟合通常是通过评估模型在训练期间和训练之后的表现来诊断的:
解决欠拟合问题
有几种策略可以帮助克服拟合不足的问题:
欠拟合与过拟合
欠拟合和过拟合是同一枚硬币的两面,代表着模型泛化的失败。
- 拟合不足:模型过于简单(偏差大)。它无法捕捉数据的潜在趋势,导致在训练集和测试集上的表现都很差。
- 过度拟合:模型过于复杂(高方差)。它对训练数据的学习效果太好,包括噪音和随机波动,导致在训练集上表现优异,但在未见数据上表现不佳。
ML 的目标是在欠拟合和过拟合之间找到一个最佳点,这通常是在偏差-方差权衡的背景下讨论的,即模型在不记忆噪声的情况下学习真实的基本模式。
拟合不足的真实案例
- 简单图像分类器:训练一个非常基本的卷积神经网络 (CNN)(例如,只有一个或两个卷积层)来完成复杂的图像分类任务,例如对ImageNet 中成千上万的物体类别进行分类。由于容量有限,该模型无法学习有效区分多个类别所需的复杂特征,因此很可能无法满足要求。训练和验证的准确率都会很低。
- 基本预测性维护:使用简单的线性模型,仅根据工作温度预测机器故障。如果故障实际上受到振动、使用年限、压力和温度非线性等复杂因素的影响,那么线性模型就会失效。它无法捕捉真正的复杂性,导致预测模型性能不佳,无法准确预测故障。有必要利用更复杂的模型或更好的功能。像 PyTorch或 TensorFlow等框架提供了构建更复杂模型的工具。