数据挖掘是发现隐藏在大型数据集中的模式、相关性、异常现象和其他有价值见解的过程。它结合了机器学习(ML)、统计和数据库系统的技术,将原始数据转化为有用的信息和知识。在人工智能(AI)领域,数据挖掘是了解数据特征、为模型训练准备数据以及发现推动智能决策的潜在结构的关键步骤。其核心思想通常被称为数据库中的知识发现(KDD)。
关键数据挖掘技术
数据挖掘包含各种用于从不同角度探索和分析数据的技术。一些常见的方法包括
- 分类:将数据点分配到预定义的类别或类别中。用于垃圾邮件检测或图像分类等任务。
- 聚类:将相似的数据点分组,而无需事先了解分组情况。适用于客户细分或识别生物数据中的独特模式。参见K-Means或DBSCAN 等算法。
- 回归:预测连续数值,如预测销售额或估算房价。例子包括线性回归。
- 关联规则挖掘:在大型数据集中发现项目之间的关系或关联,著名的应用是市场篮子分析,用于了解购买习惯。
- 异常检测:识别严重偏离常规的数据点或事件,这对于欺诈检测或识别传感器数据中的异常值至关重要。
- 降维:减少考虑的变量(特征)数量,同时保留重要信息,通常使用主成分分析 (PCA) 等技术。
数据挖掘过程
数据挖掘通常是一个涉及多个阶段的迭代过程:
- 业务理解:确定项目目标和要求。
- 了解数据:初步数据收集和探索,以熟悉数据。
- 数据准备:这包括数据清理(处理缺失值和噪音)、数据整合(合并数据源)、数据选择(选择相关数据)和数据预处理(格式化数据)。数据扩充也可应用于此。
- 建模:选择并应用各种挖掘技术(如分类、聚类)来识别模式。这通常涉及使用ML 算法。
- 评估:评估已发现模式的有效性、新颖性、实用性和可理解性。通常使用准确率或mAP等指标。
- 部署:利用所发现的知识进行决策,通常是将其纳入业务系统或报告研究结果。这可能涉及模型部署。
数据挖掘与相关概念
数据挖掘与其他以数据为重点的领域虽有关联,但也有所不同:
- 数据分析:数据分析是一个更广泛的术语,包括检查、清理、转换和建模数据以支持决策的整个过程。数据挖掘是数据分析中的一个特定步骤,侧重于发现新的和隐藏的模式。分析通常侧重于描述性统计和已知关系,而挖掘则寻求未知。
- 机器学习(ML):机器学习(ML)是人工智能的一个领域,其重点是开发能让系统从数据中学习的算法。数据挖掘使用ML 算法作为发现模式的工具,但 ML 本身的范围更广,涵盖各种任务(预测、分类等)的学习算法的创建和应用。数据挖掘的目标主要是从数据中发现知识。
- 大数据:大数据指的是具有大容量、高速度和多样性特点的数据集。数据挖掘技术对于从大数据中提取价值至关重要,但大数据本身描述的是数据的性质,而不是分析过程。Apache Spark等工具通常用于挖掘大数据。
真实世界的人工智能/移动语言应用
数据挖掘推动了许多行业的创新:
- 零售和电子商务:零售商利用交易数据的关联规则挖掘(市场篮子分析)来发现哪些产品经常一起购买。这种洞察力可为商店布局设计、有针对性的促销活动提供信息,并为在线推荐系统提供动力("购买 X 的客户也购买了 Y")。这有助于优化人工智能驱动的库存管理和个性化客户体验,正如亚马逊等平台所做的那样。
- 医疗保健:分类和聚类等数据挖掘技术可分析患者记录(电子病历)和医学影像,从而识别与疾病相关的模式、预测患者风险因素或评估治疗效果。例如,挖掘诊断数据有助于早期发现癌症等疾病(如使用脑肿瘤数据集等数据集)或预测医院再入院率,从而有助于改善患者护理和美国国立卫生研究院等机构的资源分配。探索人工智能在医疗保健解决方案中的应用,了解更多实例。