正常化
探索机器学习中规范化的力量!了解它如何增强模型训练、提高性能并确保强大的人工智能解决方案。
归一化是机器学习(ML)和人工智能(AI)中一项重要的数据预处理技术。它包括将数据集的数字特征转换成一个通用的比例,而不扭曲其范围的差异。这一缩放过程对许多算法的性能和稳定性至关重要,尤其是那些对输入值大小敏感的算法,如训练神经网络(NN)中使用的基于梯度的优化方法。通过确保所有特征对模型学习过程的贡献成比例,归一化有助于加速训练并提高整体模型的准确性。
规范化为何重要?
如果不进行归一化处理,规模较大的特征可能会主导模型的学习过程。例如,在预测房价的数据集中,"平方英尺"(如 1000-3000)这样的特征的范围要比 "卧室数量"(如 2-5)大得多。这种差异会导致梯度下降等算法需要更长的时间才能收敛或陷入局部最优。归一化可以将所有特征放在一个公平的环境中,从而缓解这一问题:
标准化与批量标准化
规范化和标准化虽然经常互换使用,但它们是不同的技术。区分数据规范化和批量规范化也很重要。
- 归一化(最小-最大缩放):这种技术通常将数据缩放到一个固定的范围内。当数据分布不是高斯分布或算法不假定任何特定分布时,这种方法非常有用。这是数据预处理中的一个常见步骤。
- 标准化(Z-分数归一化):与最小-最大缩放不同,它没有界限范围。当数据呈高斯分布时,标准化通常是首选,而且它受异常值的影响较小。
- 批量规范化:这不是一个数据预处理步骤,而是深度学习模型中使用的一个层。它在训练过程中将每个迷你批次的输入归一化到一个层。这有助于消除内部协变量偏移,稳定并加速深度网络的训练。它是包括Ultralytics YOLO模型在内的许多现代架构的标准组件,并在PyTorch和TensorFlow 等框架中实现。
标准化的应用
规范化是各个领域的标准做法,尤其是在计算机视觉(CV)领域。Ultralytics HUB等平台可简化工作流程,而这种预处理对于训练高性能模型至关重要。
- 图像数据预处理:在计算机视觉中,图像由像素值组成,像素值的范围通常为 0 至 255。在将图像输入用于图像分类或物体检测等任务的模型之前,这些像素值几乎都要进行归一化处理。将像素值缩放至 [-1, 1] 范围内可确保数据集中所有图像的一致性,这对YOLO11等模型有效学习特征至关重要。
- 医学图像分析:在人工智能医疗保健等领域,核磁共振成像或 CT 等医学扫描通常来自不同的机器,其设置各不相同,导致强度标度不同。在使用人工智能进行肿瘤检测时,对这些扫描图像进行归一化处理是至关重要的一步。它能确保模型的分析结果在不同患者和不同设备之间具有可比性,从而带来更可靠、更准确的诊断预测。这是医学图像分析中的一个基本概念。
- 金融领域的预测建模:在建立预测股票价格或评估信贷风险的模型时,数据集通常包括规模差异很大的特征,如交易量(以百万计)和市盈率(如 10-50)。对这些特征进行归一化处理对基于距离的算法至关重要,可确保基于梯度的学习不会被幅度较大的特征歪曲,这也是金融领域计算机视觉的常见做法。