术语表

数据挖掘

了解数据挖掘如何将原始数据转化为可操作的见解,为人工智能、ML 以及医疗保健、零售等领域的实际应用提供动力!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

数据挖掘是发现隐藏在大型数据集中的模式、相关性、异常现象和其他有价值见解的过程。它结合了机器学习(ML)、统计和数据库系统的技术,将原始数据转化为有用的信息和知识。在人工智能(AI)领域,数据挖掘是了解数据特征、为模型训练准备数据以及发现推动智能决策的潜在结构的关键步骤。其核心思想通常被称为数据库中的知识发现(KDD)

关键数据挖掘技术

数据挖掘包含各种用于从不同角度探索和分析数据的技术。一些常见的方法包括

  • 分类将数据点分配到预定义的类别或类别中。用于垃圾邮件检测或图像分类等任务。
  • 聚类将相似的数据点分组,而无需事先了解分组情况。适用于客户细分或识别生物数据中的独特模式。参见K-MeansDBSCAN 等算法。
  • 回归预测连续数值,如预测销售额或估算房价。例子包括线性回归
  • 关联规则挖掘在大型数据集中发现项目之间的关系或关联,著名的应用是市场篮子分析,用于了解购买习惯。
  • 异常检测识别严重偏离常规的数据点或事件,这对于欺诈检测或识别传感器数据中的异常值至关重要。
  • 降维减少考虑的变量(特征)数量,同时保留重要信息,通常使用主成分分析 (PCA) 等技术。

数据挖掘过程

数据挖掘通常是一个涉及多个阶段的迭代过程:

  1. 业务理解:确定项目目标和要求。
  2. 了解数据:初步数据收集和探索,以熟悉数据。
  3. 数据准备:这包括数据清理(处理缺失值和噪音)、数据整合(合并数据源)、数据选择(选择相关数据)和数据预处理(格式化数据)。数据扩充也可应用于此。
  4. 建模:选择并应用各种挖掘技术(如分类、聚类)来识别模式。这通常涉及使用ML 算法
  5. 评估:评估已发现模式的有效性、新颖性、实用性和可理解性。通常使用准确率mAP等指标。
  6. 部署:利用所发现的知识进行决策,通常是将其纳入业务系统或报告研究结果。这可能涉及模型部署

数据挖掘与相关概念

数据挖掘与其他以数据为重点的领域虽有关联,但也有所不同:

  • 数据分析数据分析是一个更广泛的术语,包括检查、清理、转换和建模数据以支持决策的整个过程。数据挖掘是数据分析中的一个特定步骤,侧重于发现新的隐藏的模式。分析通常侧重于描述性统计和已知关系,而挖掘则寻求未知。
  • 机器学习(ML)机器学习(ML)是人工智能的一个领域,其重点是开发能让系统从数据中学习的算法。数据挖掘使用ML 算法作为发现模式的工具,但 ML 本身的范围更广,涵盖各种任务(预测、分类等)的学习算法的创建和应用。数据挖掘的目标主要是从数据中发现知识。
  • 大数据大数据指的是具有大容量、高速度和多样性特点的数据集。数据挖掘技术对于从大数据中提取价值至关重要,但大数据本身描述的是数据的性质,而不是分析过程。Apache Spark等工具通常用于挖掘大数据。

真实世界的人工智能/移动语言应用

数据挖掘推动了许多行业的创新:

  1. 零售和电子商务:零售商利用交易数据的关联规则挖掘(市场篮子分析)来发现哪些产品经常一起购买。这种洞察力可为商店布局设计、有针对性的促销活动提供信息,并为在线推荐系统提供动力("购买 X 的客户也购买了 Y")。这有助于优化人工智能驱动的库存管理和个性化客户体验,正如亚马逊等平台所做的那样。
  2. 医疗保健:分类和聚类等数据挖掘技术可分析患者记录(电子病历)和医学影像,从而识别与疾病相关的模式、预测患者风险因素或评估治疗效果。例如,挖掘诊断数据有助于早期发现癌症等疾病(如使用脑肿瘤数据集等数据集)或预测医院再入院率,从而有助于改善患者护理和美国国立卫生研究院等机构的资源分配。探索人工智能在医疗保健解决方案中的应用,了解更多实例。

数据挖掘和Ultralytics

在Ultralytics,数据挖掘原则是开发和部署最先进计算机视觉(CV)模型的基础,例如 Ultralytics YOLO.要为物体检测图像分割等任务训练强大的模型,就需要高质量、易于理解的数据。数据挖掘技术在数据预处理数据收集和标注过程中至关重要,可用于清洁数据、识别偏差(数据集偏差)和选择相关特征,最终提高模型的准确性

此外,Ultralytics HUB还为用户提供了一个管理数据集和训练模型的平台。HUB 生态系统中的工具有助于探索和理解数据集,使用户能够应用数据挖掘概念来优化自己的ML 工作流程,并有效利用数据增强等技术。在进行超参数调整等步骤之前,通过挖掘了解数据至关重要。您可以在我们的博客中进一步了解机器学习和数据挖掘在计算机视觉中的作用。框架,如 PyTorch等框架和OpenCV等库是这些过程中使用的基本工具。

阅读全部