术语表

正常化

探索机器学习中规范化的力量!了解它如何增强模型训练、提高性能并确保强大的人工智能解决方案。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

归一化是机器学习(ML)和数据科学中广泛使用的一种基本数据预处理技术。其主要目的是将数值数据特征调整到一个通用的标准范围,通常介于 0 和 1 或 -1 和 1 之间,而不会扭曲数值范围的差异。这一过程可确保所有特征对模型训练的贡献更加均等,防止固有值较大的特征(如工资)与值较小的特征(如工作年限)相比对结果产生不成比例的影响。归一化对于对特征缩放敏感的算法尤为重要,例如深度学习(DL)中使用的基于梯度下降的方法。

规范化为何重要

现实世界的数据集往往包含尺度和单位大相径庭的特征。例如,在预测客户流失的数据集中,"账户余额 "的范围可能从数百到数百万不等,而 "产品数量 "的范围可能从 1 到 10 不等。如果不进行归一化处理,支持向量机(SVM)神经网络(NN)等计算距离或使用梯度的 ML 算法可能会错误地认为范围较大的特征更重要,原因仅仅在于其规模。而归一化技术则能公平竞争,确保每个特征的贡献都基于其预测能力,而非其大小。这将在训练过程中加快收敛速度,提高模型的准确性,并使模型更加稳定、稳健,这对训练诸如 Ultralytics YOLO这样的模型时非常有利。

常见的标准化技术

有几种方法可以重新调整数据的大小:

  • 最小-最大缩放:这可以说是最常见的归一化技术。它将特征线性地重定向到一个固定的范围,通常是 [0,1]。原始特征中的最小值变为 0,最大值变为 1,所有其他值按比例介于两者之间。它对异常值很敏感。
  • Z 分数标准化:标准化通常与归一化归为一类,但在技术上是不同的。与最小值-最大值缩放不同,标准化不会将数值限制在特定范围内,这对假设数据为零的算法非常有利。了解有关 Scikit-learn 预处理的更多信息

这些技术之间的选择通常取决于特定的数据集和所用 ML 算法的要求。您可以找到有关注释数据预处理的指南,其中通常涉及规范化步骤。

标准化与批量标准化

重要的是要将规范化与相关概念区分开来:

  • 归一化(最小-最大缩放):将数据缩放至固定范围(如 0 至 1)。在需要对特征值进行约束时非常有用。
  • 标准化(Z-score):与最小-最大比例相比,受异常值的影响较小,通常是假定数据呈正态分布或以零为中心的算法的首选。
  • 批量归一化这是一种训练过程中应用于深度神经网络层的技术,而不是事先应用的一般数据预处理步骤。它将每个迷你批次的前一层激活归一化,有助于稳定训练并减少内部协变量偏移

标准化的应用

规范化是为各种人工智能和智能任务准备数据的一个普遍步骤:

  1. 图像处理:计算机视觉(CV)中,图像中的像素值(通常从 0 到 255)在输入图像分类图像分割等任务的模型之前,通常会被归一化为 [0, 1] 或 [-1, 1] 范围。这可以确保卷积神经网络(CNN)的输入比例保持一致。许多流行的卷积神经网络数据集都受益于这种预处理。
  2. 多传感器数据融合:在将来自不同传感器、测量尺度各异的数据(如温度、压力、湿度)融合到一个预测模型中时,归一化可确保不会有任何一个传感器的读数纯粹因其测量尺度而主导其他传感器的读数。这与机器人自动驾驶汽车等领域息息相关。
  3. 医学图像分析:与一般图像处理类似,医学图像分析通常需要对不同扫描(如核磁共振成像、CT)的像素或体素强度进行归一化处理,以考虑成像设备和方案的差异,从而帮助完成肿瘤检测等任务。

总之,归一化是一个重要的预处理步骤,它能将数据特征扩展到一个一致的范围,改善许多机器学习模型的训练过程、稳定性和性能,包括使用Ultralytics HUB 等工具开发和训练的模型。它能确保公平的特征贡献,对于对输入规模敏感的算法至关重要。

阅读全部