深圳Yolo 视觉
深圳
立即加入
词汇表

归一化

探索归一化如何提升模型训练效率与预测精度。了解最小-最大缩放、Z分标准化及其Ultralytics 中的应用价值。

归一化是数据预处理中的基础技术,涉及将数值属性重新缩放至标准范围。在机器学习(ML)领域,数据集常包含尺度差异显著的特征——例如年龄范围(0–100)与收入水平(0–100,000)。 若不加处理,这些差异可能导致优化算法向较大数值产生偏倚,从而减缓收敛速度并产生次优性能。通过数据归一化,工程师可确保每个特征对最终结果的贡献成比例,使神经网络得以更高效地学习。

常见的标准化技术

数据转换有多种标准方法,每种方法都适用于不同的分布和算法要求。

  • 最小-最大缩放 这是最直观的归一化形式。它将数据重新缩放至固定范围,通常为[0, 1]。该变换通过减去最小值并除以范围(最大值减去最小值)实现。它广泛应用于 图像处理 领域,因像素强度值已知受限于0至255之间。
  • Z分值标准化虽然常与归一化互换使用,但标准化特指将数据转换为均值为0、标准差为1的形式。当数据服从正态分布时,此方法尤为有效,且对支持向量机(SVM)等假设数据呈正态分布的算法至关重要。
  • 对数缩放 对于包含极端异常值或遵循幂律分布的数据,应用对数变换可压缩数值范围。这使得分布更易于推断引擎有效解读, 避免因数值剧烈波动导致的偏差。

实际应用

标准化是各行业高性能人工智能系统管道中的标准步骤。

  1. 计算机视觉(CV):物体检测和 图像分类等任务中,数字图像由0至255的像素值构成。直接将这些大整数输入网络会减慢梯度下降的速度。 标准预处理步骤 是将像素值除以255.0,将其归一化到[0,1]区间。此操作确保了 YOLO26等高级模型获得一致输入,从而提升 Ultralytics 训练稳定性。
  2. 医学图像分析:医疗扫描(如医疗健康领域的人工智能应用)通常来自不同设备,其亮度标度各异。标准化处理确保来自MRI或CT扫描的像素亮度在不同患者和设备间具有可比性。这种一致性对精准肿瘤检测至关重要,使模型能够聚焦于结构异常而非亮度变化。

区分相关概念

区分归一化与深度学习中出现的类似预处理和架构术语至关重要。

  • vs.批量归一化 数据归一化是针对原始输入数据集在进入网络前执行的预处理步骤。 相反,批量归一化在模型训练过程中于整个网络的层间内部运行。 它通过归一化前一激活层的输出结果来稳定学习过程。
  • vs.图像增强 归一化改变像素值的尺度,而增强则改变图像的内容或几何结构(例如翻转、旋转或改变颜色),以增加数据集的多样性。Albumentations等工具用于图像增强, 而归一化则是数学缩放操作。

实施实例

在计算机视觉领域,归一化通常是处理流程中的第一步。以下 Python 示例演示了如何使用 NumPy 手动对图像数据进行归一化处理——该过程在 Ultralytics 加载器训练时会自动执行。

import numpy as np

# Simulate a 2x2 pixel image with values ranging from 0 to 255
raw_image = np.array([[0, 255], [127, 64]], dtype=np.float32)

# Apply Min-Max normalization to scale values to [0, 1]
# This standardizes the input for the neural network
normalized_image = raw_image / 255.0

print(f"Original Range: {raw_image.min()} - {raw_image.max()}")
print(f"Normalized Range: {normalized_image.min()} - {normalized_image.max()}")

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入