术语表

正常化

了解规范化如何通过扩展数据、提高训练速度和确保跨应用程序的最佳性能来增强人工智能和 ML 模型。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

归一化是机器学习(ML)和人工智能(AI)中的一项基本预处理技术,对于确保输入数据的一致性和适当缩放至关重要。它包括将数据转换为标准格式或范围,通过提高训练期间的收敛率和降低预测偏差的可能性,帮助模型有效学习。通过确保所有特征的贡献相同,归一化对于实现最佳模型性能至关重要。

规范化为何重要

在机器学习中,数据通常来自不同的来源,并可能呈现出不同的范围、单位和分布。例如,在预测房价的数据集中,面积等特征的范围可能达到数千,而卧室数量的范围可能只有 1 到 10。如果不进行归一化处理,梯度下降等算法可能难以收敛,因为一个特征的规模可能会主导其他特征,从而导致性能低下。

规范化可确保

  • 特征的比例相近,可防止某一特征对模型产生过大的影响。
  • 通过帮助梯度下降等优化算法更有效地收敛,使训练更快、更稳定。
  • 通过避免不同特征尺度带来的偏差,模型的通用性更好。

常用技术

  • 最小-最大缩放:将数据转换到一个固定的范围,通常是 [0,1],保留数值之间的相对距离。这对于依赖距离度量的算法尤其有用,比如K-Nearest Neighbors (KNN)
  • Z 值归一化(标准化):这种方法对分布不一的数据集尤为有效。
  • 小数缩放:将数据除以 10 的幂,在保留其原始结构的同时减小其大小。

对于涉及图像数据的任务,在训练过程中通常会使用批量归一化等技术来规范各层的激活,从而提高收敛性并避免出现渐变等问题。

人工智能和 ML 的应用

规范化在各种 ML 和 AI 应用中发挥着至关重要的作用:

  1. 深度学习
    在神经网络中,归一化可确保输入数据分布的一致性,从而提高训练性能。例如,批量归一化被广泛应用于卷积神经网络(CNN),通过归一化中间输出来稳定训练。

  2. 自然语言处理(NLP)
    在 NLP 任务中,规范化可能涉及文本预处理,如将文本转换为小写或去除标点符号,以确保输入数据的统一性。这对TransformersGPT 模型等模型尤其有用。

  3. 计算机视觉 (CV)
    对于图像数据集,像素值通常归一化为 [0,1] 或 [-1,1] 范围,以确保图像分类物体检测等任务中图像的一致性。有关为视觉任务准备数据集的更多信息,请访问Ultralytics' Dataset Guide

真实案例

示例 1:医学影像

在医疗保健领域,归一化可确保 X 射线或核磁共振成像等医学图像中的像素强度值保持一致。这对于诸如 Ultralytics YOLO等模型至关重要,因为在肿瘤检测等任务中,亮度或对比度的变化可能会误导模型。

示例 2:自动驾驶汽车

对于自动驾驶汽车而言,必须对来自激光雷达、摄像头和 GPS 的传感器数据进行归一化处理,以确保做出准确的实时决策。归一化有助于调整不同来源的数据,如深度图和 RGB 图像,使算法能够有效地解释环境。探索人工智能如何改变自动驾驶汽车

与相关概念的主要区别

规范化经常与相关技术混淆,例如

  • 标准化:归一化将数据缩放至特定范围,而标准化则侧重于将数据集中在平均值为 0、方差为单位的中心。了解有关数据预处理技术的更多信息,以加深理解。
  • 正则化:与转换输入数据的归一化不同,正则化涉及 L1 或 L2 惩罚等技术,以减少模型的过拟合。探索正则化,了解更多详情。

工具和资源

  • Ultralytics HUB:无代码平台,用于训练和部署人工智能模型,为物体检测和分割等任务提供规范化数据集的无缝集成。
  • Scikit-learn 标准化指南:在Python 工作流中实施规范化的综合资源。
  • ImageNet 数据集:这是一个流行的数据集,规范化是有效训练的关键。

规范化是机器学习工作流程取得成功的基石,可确保数据以最佳形式用于模型训练。通过采用这种技术,开发人员可以在各种人工智能应用中提高模型的效率、可靠性和可扩展性。

阅读全部