探索机器学习中规范化的力量!了解它如何增强模型训练、提高性能并确保强大的人工智能解决方案。
归一化是机器学习(ML)和数据科学中广泛使用的一种基本数据预处理技术。其主要目的是将数值数据特征调整到一个通用的标准范围,通常介于 0 和 1 或 -1 和 1 之间,而不会扭曲数值范围的差异。这一过程可确保所有特征对模型训练的贡献更加均等,防止固有值较大的特征(如工资)与值较小的特征(如工作年限)相比对结果产生不成比例的影响。归一化对于对特征缩放敏感的算法尤为重要,例如深度学习(DL)中使用的基于梯度下降的方法。
现实世界的数据集往往包含尺度和单位大相径庭的特征。例如,在预测客户流失的数据集中,"账户余额 "的范围可能从数百到数百万不等,而 "产品数量 "的范围可能从 1 到 10 不等。如果不进行归一化处理,支持向量机(SVM)或神经网络(NN)等计算距离或使用梯度的 ML 算法可能会错误地认为范围较大的特征更重要,原因仅仅在于其规模。而归一化技术则能公平竞争,确保每个特征的贡献都基于其预测能力,而非其大小。这将在训练过程中加快收敛速度,提高模型的准确性,并使模型更加稳定、稳健,这对训练诸如 Ultralytics YOLO这样的模型时非常有利。
有几种方法可以重新调整数据的大小:
这些技术之间的选择通常取决于特定的数据集和所用 ML 算法的要求。您可以找到有关注释数据预处理的指南,其中通常涉及规范化步骤。
重要的是要将规范化与相关概念区分开来:
规范化是为各种人工智能和智能任务准备数据的一个普遍步骤:
总之,归一化是一个重要的预处理步骤,它能将数据特征扩展到一个一致的范围,改善许多机器学习模型的训练过程、稳定性和性能,包括使用Ultralytics HUB 等工具开发和训练的模型。它能确保公平的特征贡献,对于对输入规模敏感的算法至关重要。