掌握机器学习中的偏差-方差权衡。学习平衡准确性和泛化的技术,以获得最佳模型性能!
偏差-方差权衡(Bias-Variance Tradeoff)是有监督机器学习(ML)中的一个基本概念,它描述了模型最大限度减少错误假设(偏差)的能力与模型对训练数据变化(方差)的敏感性之间的矛盾。找到适当的平衡点对于建立能很好地泛化到新的、未见过的数据的模型至关重要。偏差大的模型很少关注训练数据,会过度简化基本模式;而方差大的模型则过于关注训练数据,基本上会记住训练数据,包括其中的噪声。
偏差是指用一个简单得多的模型来逼近现实世界中可能很复杂的问题所带来的误差。高偏差会导致算法忽略特征和目标输出之间的相关关系,从而导致一种称为欠拟合的现象。欠拟合模型在训练数据和未见测试数据上的表现都很差,因为它未能捕捉到潜在的趋势。简单的模型,如应用于高度非线性数据的线性回归,通常会表现出较高的偏差。减少偏差的技术通常涉及增加模型的复杂性,如添加更多特征或使用更复杂的算法,如深度学习(DL)中的算法。
方差表示模型对训练数据波动的敏感度。它是指如果我们在不同的训练数据集上对模型进行训练,模型的预测会发生多少变化。高方差会导致算法对训练数据中的随机噪音而不是预期输出进行建模,从而导致过拟合。过拟合模型在训练数据上表现极佳,但在未见过的测试数据上却表现不佳,因为它不能泛化。复杂的模型,如多层深度神经网络或高阶多项式回归,很容易产生高方差。降低方差通常涉及简化模型、使用更多训练数据或应用正则化技术。
理想情况下,我们希望模型具有低偏差和低方差。然而,这两种误差来源往往成反比:偏差减少往往会增加方差,反之亦然。增加模型复杂度通常会减少偏差,但会增加方差。反之,降低模型复杂度会增加偏差,但会减少方差。我们的目标是找到模型复杂度的最佳水平,使未见数据的总误差(偏差平方、方差和不可还原误差之和)最小。这就需要仔细平衡偏差和方差,通常可视化为总误差与模型复杂度的 U 型曲线,这在《统计学习要素》等资料中已有论述。
有几种技术有助于管理偏差与方差之间的权衡:
重要的是,要将 "偏差-方差权衡 "与人工智能中其他形式的偏差区分开来:
偏差-方差权衡的重点是模型复杂性和数据敏感性导致的模型泛化误差,而人工智能偏差和数据集偏差则涉及公平性和代表性问题。管理权衡的目的是优化预测性能指标,如准确率或平均精度 (mAP),而解决人工智能/数据集偏差的目的是确保结果公平。您可以在我们的YOLO 性能指标指南中了解有关性能指标的更多信息。