术语表

数据挖掘

了解数据挖掘如何将原始数据转化为可操作的见解,为人工智能、ML 以及医疗保健、零售等领域的实际应用提供动力!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

数据挖掘是发现隐藏在大型数据集中的模式、趋势和有价值见解的过程。它综合运用统计方法、机器学习(ML)算法和数据库系统,将原始数据转化为可理解和可操作的信息。这一过程是人工智能(AI)的基础,为建立预测模型和实现各领域的数据驱动决策奠定了基础。有效的数据挖掘可以帮助企业优化流程、了解客户行为,并通过发现通过简单数据分析可能并不明显的关系来识别新机遇。

数据挖掘的关键技术

数据挖掘利用各种技术提取不同类型的信息:

  • 分类:将集合中的项目分配到目标类别或类别中。目标是准确预测数据中每个案例的目标类别(如预测客户流失率)。这通常涉及监督学习方法。
  • 聚类:将相似的数据点分组,而无需事先了解分组情况。K-MeansDBSCAN等算法有助于识别数据中的自然分组,是无监督学习的一个例子。
  • 回归:预测连续值(例如,根据面积和位置等特征预测房价)。它是变量之间关系的模型。
  • 关联规则挖掘:在大型数据库中发现变量之间的关系,常用于市场篮子分析(例如,发现购买面包的顾客也倾向于购买牛奶)。
  • 异常检测识别严重偏离常规的数据点或事件,对于欺诈检测或识别制造缺陷等应用至关重要。

数据挖掘与相关术语

数据挖掘与其他以数据为重点的学科虽有关联,但也有所不同:

  • 数据分析:更侧重于描述性统计、报告和数据可视化,以了解过去的绩效和当前的趋势。数据挖掘通常更进一步,强调预测建模和模式发现。
  • 机器学习 (ML):提供用于数据挖掘的算法和工具,以发现模式并建立模型。数据挖掘是应用这些(和其他)方法从数据中提取知识的更广泛过程。许多 ML 任务(如图像分类)都是通过将数据挖掘原理应用于可视化数据而实现的应用。
  • 大数据指需要专业工具和技术才能处理的超大数据集。数据挖掘技术通常应用于大数据以提取洞察力,但数据挖掘本身可在任何规模的数据集上执行。CRISP-DM 方法为数据挖掘项目提供了一个标准流程模型。

数据挖掘的实际应用

数据挖掘技术推动了众多行业的创新和效率。下面是两个例子:

  1. 零售篮子分析:超市利用关联规则挖掘交易数据来了解购买习惯。如果发现顾客经常将薯片和苏打水放在一起购买,就可以将这些商品摆放在附近,或者提供捆绑促销,这在零售业的人工智能战略中已有论述。
  2. 医疗预测诊断:医院和研究人员将分类和聚类技术应用于患者数据(症状、病史、检查结果),以预测糖尿病或心脏病等疾病的可能性。这有助于早期检测和个性化治疗计划,是人工智能在医疗保健领域的一个重要方面。例如,类似于医学成像中肿瘤检测的技术在很大程度上依赖于从庞大的医疗数据集中挖掘出的模式。

数据挖掘和Ultralytics

在Ultralytics,数据挖掘原则是开发和部署最先进计算机视觉(CV)模型的基础,例如 Ultralytics YOLO.要为物体检测图像分割等任务训练强大的模型,就需要高质量、易于理解的数据。数据挖掘技术在数据预处理数据收集和标注过程中至关重要,可用于清洁数据、识别偏差(数据集偏差)和选择相关特征,最终提高模型的准确性

此外,Ultralytics HUB还为用户提供了一个管理数据集和训练模型的平台。HUB 生态系统中的工具有助于探索和理解数据集,使用户能够应用数据挖掘概念来优化自己的ML 工作流程,并有效利用数据增强等技术。在进行超参数调整等步骤之前,通过挖掘了解数据至关重要。您可以在我们的博客中进一步了解机器学习和数据挖掘在计算机视觉中的作用

阅读全部