术语表

不合适

通过专家提示、策略和实际案例,了解如何识别、预防和解决机器学习模型中的欠拟合问题。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

机器学习(ML)领域,实现最佳模型性能需要在简单性和复杂性之间找到平衡。欠拟合是一个常见问题,即模型过于简单,无法捕捉到训练数据中存在的潜在模式。这意味着模型无法有效学习,导致不仅在训练数据上,而且在新的、未见过的数据(测试数据或真实世界输入)上都表现不佳。拟合不足的模型缺乏必要的能力或训练时间来准确表示数据中的关系,从而导致偏差较大,无法很好地泛化。

什么原因导致不匹配?

有几个因素可能导致模型拟合不足:

  • 模型不够复杂所选模型可能过于简单,无法满足数据的复杂性。例如,对非线性模式的数据使用基本的线性回归模型,或使用层数或神经元太少的神经网络 (NN)
  • 特征工程不足:提供给模型的输入特征可能没有包含足够的相关信息,或者不能有效地代表基本模式。
  • 训练数据不足:模型可能没有看到足够的示例来学习底层模式。这对于复杂的深度学习模型来说尤其如此。拥有多样化、有代表性的数据至关重要,可以通过Ultralytics 数据集等平台进行探索。
  • 训练时间太短:模型训练过程可能会过早停止,还没有足够的历时来学习数据中的模式。
  • 过度正则化用于防止过拟合的技术,如 L1 或 L2 正则化或高丢弃率,有时会过度约束模型,如果应用得过于强烈,就会阻止它学习必要的模式。

识别欠拟合

欠拟合通常是通过评估模型在训练期间和训练之后的表现来诊断的:

  • 训练误差大:即使在训练数据上,模型的表现也很差。准确率精确度召回率F1 分数等关键指标都很低,损失函数值也居高不下。
  • 验证/测试误差大:模型在未知验证数据或测试数据上的表现也很差。训练误差和验证误差之间的性能差距通常很小,但两者的误差都高得令人无法接受。
  • 学习曲线将训练和验证损失/度量与训练历时进行对比,可以发现拟合不足的问题。如果两条曲线都在较高的误差水平上趋于平稳,则模型很可能是拟合不足。你可以使用TensorBoardWeights & Biases.了解具体的YOLO 性能指标也至关重要。

解决欠拟合问题

有几种策略可以帮助克服拟合不足的问题:

  • 提高模型复杂性使用功能更强大的模型架构,增加参数、层数或神经元。例如,从更简单的 CNN 转向更先进的架构,如 Ultralytics YOLO11等更先进架构来完成物体检测任务。
  • 改进特征工程从现有数据中创建信息量更大的特征,或纳入新的相关数据源。
  • 增加训练时间:对模型进行更多历元训练,使其有足够的时间学习数据模式。查看模型训练提示以获得指导。
  • 减少正则化降低正则化技术的强度(例如,降低正则化参数 lambda,降低丢弃概率)。
  • 确保数据充足:收集更多的训练示例。如果收集更多数据不可行,数据扩增等技术可以人为地增加训练数据的多样性。使用Ultralytics HUB 等平台可以简化数据集的管理。

欠拟合与过拟合

欠拟合和过拟合是同一枚硬币的两面,代表着模型泛化的失败。

  • 拟合不足:模型过于简单(偏差大)。它无法捕捉数据的潜在趋势,导致在训练集和测试集上的表现都很差。
  • 过度拟合:模型过于复杂(高方差)。它对训练数据的学习效果太好,包括噪音和随机波动,导致在训练集上表现优异,但在未见数据上表现不佳。

ML 的目标是在欠拟合和过拟合之间找到一个最佳点,这通常是在偏差-方差权衡的背景下讨论的,即模型在不记忆噪声的情况下学习真实的基本模式。

拟合不足的真实案例

  1. 简单图像分类器:训练一个非常基本的卷积神经网络 (CNN)(例如,只有一个或两个卷积层)来完成复杂的图像分类任务,例如对ImageNet 中成千上万的物体类别进行分类。由于容量有限,该模型无法学习有效区分多个类别所需的复杂特征,因此很可能无法满足要求。训练和验证的准确率都会很低。
  2. 基本预测性维护:使用简单的线性模型,仅根据工作温度预测机器故障。如果故障实际上受到振动、使用年限、压力和温度非线性等复杂因素的影响,那么线性模型就会失效。它无法捕捉真正的复杂性,导致预测模型性能不佳,无法准确预测故障。有必要利用更复杂的模型或更好的功能。像 PyTorchTensorFlow等框架提供了构建更复杂模型的工具。
阅读全部