术语表

数据清理

了解数据清理如何确保为人工智能和 ML 提供高质量、准确的数据集。利用高效的清洗技术提高模型性能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

数据清理是准备和完善原始数据的过程,以确保其质量、一致性和相关性,以便用于机器学习(ML)和人工智能(AI)应用。它包括识别和纠正错误、填补缺失值、删除重复数据并确保格式统一。高质量的数据对于训练准确可靠的 ML 模型至关重要,而数据清理是实现这一目标的基础步骤。

数据清理为何重要

数据清理对于人工智能和 ML 至关重要,因为模型的性能与用于训练的数据质量直接相关。肮脏或不一致的数据会导致不准确的预测、有偏差的结果和不可靠的见解。通过确保数据准确、完整和格式正确,数据清理可以提高模型性能,并有助于防止过拟合或欠拟合等问题。

主要优势

  • 提高准确性:干净的数据使模型能够学习有意义的模式,从而提高预测能力。进一步了解准确性在机器学习中的重要性。
  • 减少偏差:清洗数据有助于最大限度地减少数据集偏差,确保公平、均衡的模型训练。
  • 提高效率:准备充分的数据可加快数据预处理阶段的速度,减少计算开销。

数据清理步骤

  1. 识别错误:使用统计工具或可视化方法检测不一致之处,如缺失值、异常值或错误条目。例如,混淆矩阵可用于分析标注数据集中的分类错误。
  2. 处理缺失数据:根据数据集的具体情况,使用估算技术填补空白或删除不完整的记录。
  3. 删除重复数据:识别并删除重复条目,确保数据的唯一性和准确性。
  4. 格式标准化:确保日期、文本或数值等字段的格式一致。
  5. 验证数据:根据外部来源或领域知识交叉验证数据。
  6. 去除噪音:过滤无关数据点,重点关注有意义的特征。

有关准备注释数据的详细指导,请参阅数据预处理指南

人工智能和 ML 中的数据清理

在人工智能和 ML 工作流程中,数据清理通常是更广泛的数据预处理管道中的初步步骤之一。一旦数据得到清理,就可以对其进行增强、规范化处理,或将其分成训练集、验证集和测试集。

实际应用

  • 医疗保健:在医疗人工智能系统中,数据清洗对于处理病人记录、成像数据或化验结果至关重要。例如,清洗医学图像分析中使用的医学图像可确保准确的异常检测和诊断。
  • 零售:零售应用通常涉及清理交易数据,以分析客户行为或优化库存。删除重复数据或标准化产品标识符可以提高推荐系统的准确性。

数据清理实践案例

示例 1:金融欺诈检测

一家金融机构收集交易数据来训练用于欺诈检测的 ML 模型。原始数据集包含 "交易地点 "字段中的缺失值和某些交易的重复条目。数据清理包括

  • 使用用户最常使用的位置填补缺失值。
  • 删除重复条目,避免检测模型出现偏差。
  • 将交易金额等数字字段标准化,以确保一致的比例。

这一过程提高了数据集的质量,使模型能够正确识别欺诈模式,而不受错误或不一致的干扰。

示例 2:农业产量预测

在人工智能驱动的农业中,传感器收集有关土壤质量、天气条件和作物健康的数据。由于传感器故障或数据传输错误,原始数据往往包含噪声。通过清理数据--去除异常值和填补缺失读数--数据集变得更加可靠,可用于训练预测最佳播种时间或预期产量的模型。了解有关农业人工智能的更多信息。

工具和技术

从简单的电子表格软件到先进的编程库,有多种工具和平台可协助进行数据清理。对于大型项目,将数据清理工作流程与Ultralytics HUB 等平台集成,可简化流程并确保与人工智能模型(如.NET)无缝兼容。Ultralytics YOLO.

常用工具

  • 熊猫:Python 数据处理和清理库。
  • Dask处理超大内存数据集的库。
  • OpenRefine:清理和转换杂乱数据的工具。

相关概念

  • 数据标签:清理数据后,通常需要对数据进行标记,以便为监督学习任务做好准备。
  • 数据扩充:可对清理后的数据进行扩充,以增加多样性并提高模型的通用性。
  • 数据漂移:监测数据分布随时间的变化,这可能会影响模型性能。

数据清理是人工智能和 ML 管道中至关重要的一步,它为建立准确、高效和有影响力的模型奠定了基础。利用各种工具和最佳实践,可确保您的数据为推动各行业的有意义见解和创新做好准备。

阅读全部