术语表

数据预处理

掌握机器学习的数据预处理。学习清理、缩放和编码等技术,以提高模型的准确性和性能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

数据预处理是指在原始数据用于训练机器学习 (ML)模型之前,将其清理、转换和组织成结构化的合适格式的基本技术。从各种来源收集到的原始数据通常比较混乱,包含缺失值、不一致、噪音或错误。预处理可以解决这些问题,提高数据质量,从而直接提高 ML 模型的性能、准确性和可靠性。这一步骤是任何数据驱动项目的基础,包括人工智能(AI)计算机视觉(CV)项目。

数据预处理为何重要?

垃圾进,垃圾出 "的原则在机器学习中非常适用。模型直接从它们所训练的数据中学习模式。如果输入的数据有缺陷,模型就会学习到不正确或不相关的模式,从而导致预测不准确和结果不可靠。高质量、准备充分的数据对于建立有效的模型至关重要,例如 Ultralytics YOLO等高难度任务。适当的数据预处理有以下重要作用

  • 提高模型准确性:干净且结构良好的数据有助于模型更有效地学习有意义的模式。
  • 提高效率:预处理可以简化数据或降低数据维度,从而减少训练所需的计算资源。
  • 减少过拟合:处理噪声和异常值可以防止模型学习这些无关的细节,从而提高模型对新数据的泛化能力,避免过度拟合
  • 确保可靠性:一致的数据格式可使模型在训练推理过程中表现得更加稳定可靠。

常用数据预处理技术

在数据预处理过程中,根据数据类型和特定的 ML 任务,会应用各种技术,通常是组合使用。主要技术包括

  • 数据清理这包括识别和纠正错误、处理缺失值(例如,通过估算或移除)以及处理异常值或噪声数据点。在Python 中,Pandas等工具常用于此。
  • 数据转换: 这一步骤将数据修改为更合适的格式。
    • 缩放: 归一化(将数据缩放至一定范围,通常为 0 至 1)或标准化(将数据缩放至均值为零且方差为单位)等技术有助于对特征尺度敏感的算法,如基于梯度下降的模型。有关缩放技术的更多信息,请参阅Scikit-learn 预处理文档
    • 编码:将分类特征(如文本标签)转换为模型可以处理的数字表示(如单次编码)。
  • 特征工程从现有特征中创建新的、信息量可能更大的特征,以提高模型性能。这需要领域知识和创造力。
  • 特征提取从原始数据中自动提取较小的特征集,同时保留基本信息。这通常使用主成分分析 (PCA) 等技术来完成。
  • 降维减少输入特征的数量,以简化模型、缩短训练时间并降低过度拟合的风险,这对大数据尤为重要。
  • 特定图像预处理:对于计算机视觉任务,常见的步骤包括调整图像大小至一致的尺寸、转换色彩空间(如将 BGR 转换为 RGB)、调整亮度或对比度,以及使用OpenCV 等库应用滤波器进行降噪。Ultralytics 为YOLO 模型的注释数据预处理提供指导。

实际应用

在无数人工智能/人工智能应用中,数据预处理至关重要:

  1. 医学图像分析在人工智能模型分析核磁共振成像或 CT 扫描中的肿瘤等异常情况(以脑肿瘤数据集为例)之前,必须对图像进行预处理。这通常包括使用滤波器降噪、强度归一化以标准化不同扫描和机器的亮度水平,以及图像配准以对齐多个扫描。这些步骤可确保模型获得一致的输入,提高其准确检测细微异常的能力。这对于人工智能在医疗保健领域的应用至关重要。
  2. 自动驾驶汽车自动驾驶汽车依赖于摄像头和激光雷达等传感器。来自这些传感器的原始数据需要进行大量预处理。摄像头图像可能需要调整大小、颜色校正和亮度调整,以应对不同的光照条件。激光雷达点云数据可能需要过滤,以去除噪音或地面点。这种预处理可确保物体检测和跟踪系统接收到干净、标准化的数据,从而可靠地识别行人、车辆和障碍物,这对人工智能在汽车应用中的安全至关重要。

数据预处理与相关概念

将数据预处理与密切相关的术语区分开来很有帮助:

  • 数据清理与数据预处理数据清理是数据预处理的一个子集,特别侧重于识别和纠正数据集中的错误、不一致和缺失值。预处理的范围更广,包括清理、转换、缩放和特征处理。
  • 数据扩增与数据预处理数据扩增是指通过创建现有数据的修改副本(如旋转或翻转图像),人为增加训练数据集的大小和多样性。虽然扩增是为训练准备数据的重要部分,尤其是在深度学习中,但它通常是在初始预处理步骤(如清理和调整大小)之后进行的。探索包括增强策略在内的模型训练技巧
  • 特征工程与数据预处理特征工程是从现有特征中创建新输入特征的过程。它通常被认为是更广泛的数据预处理管道中的一个步骤,旨在增强模型的预测能力。
  • 数据标签与数据预处理数据标注包括为原始数据分配有意义的标签或注释(如在对象周围绘制边框)。这对监督学习任务至关重要。标记是一个独特的步骤,通常在预处理之前或同时进行。高质量的标签与有效的预处理相结合,对模型训练至关重要。更多详情,请参阅Ultralytics 数据收集和注释指南

使用Ultralytics HUB 等平台可以简化数据集管理和预处理步骤,这些平台提供了数据集管理和模型训练工具。

阅读全部