探索机器学习中规范化的力量!了解它如何增强模型训练、提高性能并确保强大的人工智能解决方案。
归一化是机器学习(ML)和数据科学中广泛使用的一种基本数据预处理技术。它的主要目标是将数值数据特征调整到一个通用的标准范围,通常介于 0 和 1 或 -1 和 1 之间,而不会扭曲数值范围的差异。这一过程可确保所有特征对模型训练的贡献更加平等,防止固有值较大的特征(如数据集中的工资)与值较小的特征(如工作年限)相比对结果产生不成比例的影响。归一化对于对特征缩放敏感的算法尤为重要,例如深度学习(DL)中使用的基于梯度下降的方法和各种优化算法。
现实世界的数据集往往包含尺度和单位大相径庭的特征。例如,在预测客户流失的数据集中,"账户余额 "的范围可能从数百到数百万不等,而 "产品数量 "的范围可能从 1 到 10 不等。如果不进行归一化处理,支持向量机(SVM)或神经网络(NN)等计算距离或使用梯度的 ML 算法可能会错误地认为范围较大的特征更重要,原因仅仅在于其规模。而归一化技术则能公平竞争,确保每个特征的贡献都基于其预测能力,而非其大小。这将加快训练过程中的收敛速度(从减少的历时中可以看出),提高模型的准确性,并使模型更加稳定、稳健。这种稳定性在训练 Ultralytics YOLO等模型时,这种稳定性是非常有益的,因为它可以提高平均精度 (mAP) 等指标。
有几种重新调整数据比例的方法,每种方法都适用于不同的情况:
这些技术之间的选择通常取决于特定的数据集(如Ultralytics Datasets 中的数据集)和所使用的 ML 算法的要求。注释数据预处理指南通常涵盖与特定任务相关的规范化步骤。
重要的是要将规范化与相关概念区分开来:
规范化是为各种人工智能(AI)和 ML 任务准备数据的一个普遍步骤:
总之,归一化是一个重要的预处理步骤,它能将数据特征扩展到一个一致的范围,改善许多机器学习模型的训练过程、稳定性和性能,包括使用Ultralytics HUB 等工具开发和训练的模型。它能确保公平的特征贡献,对于对输入规模敏感的算法来说至关重要,有助于提供更强大、更准确的人工智能解决方案。