术语表

数据清理

掌握人工智能和 ML 项目的数据清理。学习修复错误、提高数据质量和有效提升模型性能的技术!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

数据清理是任何机器学习(ML)或人工智能(AI)项目数据预处理阶段的关键步骤。它包括识别和纠正原始数据中的错误、不一致性和不准确性,以确保用于训练或分析的数据集质量高、可靠并适合预期目的。这一过程至关重要,因为 ML 模型的性能在很大程度上取决于输入数据的质量。不准确或不一致的数据会导致误导性结果、较差的模型性能和不正确的结论。

数据清理在人工智能和 ML 中的重要性

在人工智能和 ML 领域,数据是为算法和模型提供动力的燃料。高质量的数据能让模型有效地学习、做出准确的预测,并能很好地泛化到新的、未见过的数据中。数据清理通过确保输入模型的数据准确、一致和相关,在实现这一目标方面发挥着关键作用。如果没有适当的数据清理,模型可能会出现过拟合(即模型在训练数据上表现良好,但在新数据上表现不佳)或欠拟合(即模型无法捕捉数据中的潜在模式)等问题。

常见的数据清理技术

根据数据的性质和存在的具体问题,数据清理采用了多种技术。一些最常见的技术包括

  • 处理缺失值:处理缺失数据的方法可以是删除缺失值的数据项,也可以是估算缺失值。估算方法包括用特征的平均值、中位数或模式替换缺失值,或使用回归估算等更先进的技术。
  • 异常值检测和处理:离群值或与数据集其他部分有明显偏差的数据点会使分析结果出现偏差。可以使用 IQR(四分位数间距)法或 Z 值等技术来识别异常值,然后将其移除或转换。
  • 删除重复数据:重复的数据条目会导致数据中某些模式的代表性过高。识别和删除重复数据可确保数据集准确反映基本分布情况。
  • 数据转换:这包括将数据转换为适合分析的格式。常见的转换包括归一化和标准化,前者将数据按比例放大到特定范围,后者将数据转换为均值为 0、标准差为 1 的数据。 了解有关机器学习中归一化的更多信息。
  • 数据缩减:这种技术旨在减少数据集的大小,同时保留其基本特征。主成分分析(PCA)等技术可用于降维。
  • 数据离散化:这包括将连续数据转换为离散区间或类别,这对某些类型的分析或算法非常有用。

数据清理与其他数据预处理步骤的比较

虽然数据清理是数据预处理的重要组成部分,但它有别于其他预处理步骤。数据清理专门侧重于识别和纠正数据中的错误和不一致之处。与此相反,数据转换涉及修改数据格式或结构,而数据缩减旨在减少数据集的大小,同时保留其基本信息。数据扩充涉及从现有数据中创建新的数据点,以增加数据集的规模。这些步骤中的每一个都在为分析和建模准备数据的过程中发挥着独特的作用。

实际应用中的数据清理示例

  1. 医疗保健:在医学影像分析中,数据清理可能涉及去除带有伪影的图像、确保一致的图像质量以及图像格式标准化。例如,在训练医学图像分析模型以检测肿瘤时,移除分辨率低或标记不正确的图像至关重要。
  2. 自动驾驶汽车:对于训练自动驾驶车辆而言,数据清理对于确保物体检测和跟踪系统的准确性至关重要。这可能涉及删除传感器故障时收集的数据、纠正错误标记的物体以及处理来自不同传感器的不一致数据。

数据清理是人工智能和 ML 项目生命周期中不可或缺的一步。通过确保数据的质量和一致性,可以开发出更准确、可靠和稳健的模型。反过来,这又会带来更好的决策、更高的性能以及从数据中获得更有价值的见解。值得注意的是,数据清理是一个迭代过程,随着项目的进展和新见解的获得,往往有必要重新审视和完善清理步骤。

阅读全部