术语表

数据清理

掌握人工智能和 ML 项目的数据清理。学习修复错误、提高数据质量和有效提升模型性能的技术!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

数据清理是识别和纠正或删除数据集中的错误、不一致、不准确和损坏记录的重要过程。它能确保数据的准确性、一致性和可用性,是建立可靠有效的人工智能(AI)机器学习(ML)模型的基础。就像在烹饪前准备高质量的食材一样;如果没有干净的数据,最终的输出(人工智能模型)很可能是有缺陷的,遵循数据科学中常见的 "垃圾进,垃圾出 "原则。干净的数据能带来更好的模型性能、更可信的洞察力,并减少人工智能中的偏差

人工智能和机器学习的相关性

在人工智能和人工智能领域,训练数据的质量直接影响到模型的准确性及其泛化到新的、未见过的数据的能力。数据清理是人工智能工作流程中至关重要的第一步,通常先于特征工程和模型训练等任务。像 Ultralytics YOLO等用于对象检测实例分割等高要求任务的模型,在很大程度上依赖于干净、结构良好的数据集来有效学习。在实际应用中,错误标记的图像、不一致的边界框格式、缺失值或重复条目等错误会大大降低性能,导致不可靠的预测。通过数据清理来解决这些问题,有助于确保模型学习到有意义的模式,而不是原始数据中存在的噪音或错误,从而防止出现过拟合等问题。

常见的数据清理任务

数据清理涉及针对数据集中的具体问题而量身定制的各种技术。常见的任务包括

  • 处理缺失数据识别有缺失值的条目,并决定是否删除它们、估算它们(估算)或使用对缺失数据健壮的算法。根据具体情况,有各种处理缺失数据的策略
  • 纠正错误和不一致:修正错别字、统一单位或格式(如日期格式、大小写),以及解决相互矛盾的数据点。这对保持数据的完整性至关重要。
  • 删除重复记录:识别并删除可能影响分析或模型训练的相同或近似条目。
  • 处理异常值:检测与其他观察结果有明显差异的数据点。根据不同的原因,异常值可能会被移除、修正或保留。可以采用多种异常值检测方法
  • 解决结构性错误:修复与数据结构相关的问题,如命名规则不一致或条目错位。

实际应用

在众多人工智能/人工智能应用中,数据清理是不可或缺的:

  1. 医学图像分析脑肿瘤数据集等医疗数据集中,数据清理包括去除低质量或损坏的扫描图像(如模糊图像)、标准化图像格式(如 DICOM)、纠正错误的诊断标记,以及确保根据 HIPAA 等法规维护患者数据隐私。干净的数据对于训练可靠的诊断模型至关重要。美国国立卫生研究院(NIH)强调生物医学研究中的数据质量。了解更多人工智能在医疗保健领域的应用。
  2. 零售库存管理对于使用计算机视觉跟踪库存的系统(如可能使用SKU-110K 数据集的系统)来说,清理工作包括纠正图像中错误识别的产品、删除扫描错误导致的重复条目、统一不同数据源的产品名称或代码,以及处理用于需求预测或推荐系统的销售记录中的不一致之处。这样就能确保准确的库存清点和高效的供应链运营,从而利用人工智能提高零售效率Google Cloud AI for Retail等平台通常依赖于干净的输入数据。

数据清理与相关概念

必须将数据清理与相关的数据准备步骤区分开来:

  • 数据预处理这是一个更宽泛的术语,包括数据清理,但也包括其他转换,以便为 ML 模型准备数据,例如归一化(缩放数值特征)、编码分类变量和特征提取。清理侧重于修复错误,而预处理侧重于为算法格式化数据。更多详情,请参阅Ultralytics 注释数据预处理指南
  • 数据标签这是为原始数据添加信息标签或注释(标签)的过程,例如在图像中围绕对象绘制边框,用于监督学习。数据清理可能涉及纠正质量检查过程中发现的错误标签,但它与最初的标记行为不同。数据收集与注释指南》提供了有关标签的见解。Ultralytics HUB提供管理标签数据集的工具。
  • 数据增强这种技术通过创建现有数据的修改副本(如旋转图像、改变亮度),人为增加训练数据集的大小和多样性。数据扩增的目的是提高模型的通用性和鲁棒性,而数据清理的重点是提高原始数据的质量。了解更多信息,请参阅《2025 年数据增强终极指南》

数据清理是一项基础性工作,通常需要不断迭代,通过确保底层数据的正确性,大大提高人工智能系统的可靠性和性能。在Python人工智能工作流程中,Pandas 库等工具通常用于数据操作和清理任务。通过严格的清理确保数据质量对于开发值得信赖的人工智能至关重要,尤其是在处理复杂的计算机视觉(CV)任务或COCOImageNet 等大规模基准数据集时

阅读全部