深圳Yolo 视觉
深圳
立即加入
词汇表

数据挖掘

探索数据挖掘技术及其应用。学习如何利用Ultralytics 提取洞察、识别模式并优化人工智能工作流程。

数据挖掘是探索和分析海量信息以发掘有意义模式与趋势的过程。它处于统计学、机器学习(ML)和数据库系统的交汇点,是"数据库知识发现"(KDD)流程中的关键环节。 通过筛选海量原始数据,数据挖掘将无结构的噪声转化为结构化的可操作洞察, 助力企业和研究人员做出明智决策。

现代人工智能(AI)领域,数据挖掘通常是预测建模的前置环节。算法要预测未来,必须先理解过去。以计算机视觉(CV)为例,挖掘技术可能通过分析数千张图像来识别定义特定物体类别的共同特征——如边缘、纹理或形状——从而为训练稳健的数据集奠定基础。

数据挖掘的关键技术

数据挖掘依赖于多种复杂方法来发掘数据中的隐含关联。这些技术使分析师能够超越简单的数据汇总,实现深度探索。

  • 分类 该过程涉及将数据项归入预定义的组别或类别。在视觉人工智能领域,这相当于训练模型基于历史标注样本区分"汽车"与"行人"的过程。
  • 聚类分析与分类不同,聚类分析基于相似性对数据点进行分组,且无需预先定义标签。这对于无监督学习至关重要——算法可自动将客户购买行为或相似图像纹理进行分组。您可在Scikit-learn文档中进一步了解聚类方法。
  • 异常检测该技术用于识别显著偏离常规的数据点,在金融领域的欺诈检测或生产线上的制造缺陷排查中至关重要。
  • 关联规则学习:该方法用于发现数据库中变量之间的关联关系。 经典案例是市场篮分析, 零售商通过该分析发现购买面包的顾客也可能购买黄油。
  • 回归分析用于 基于其他变量预测连续数值,该方法对预测销售趋势或 在深度估计任务中估算物体距离至关重要。

实际应用

数据挖掘的实用性几乎涵盖所有行业,通过揭示肉眼不可见的模式来推动效率和创新。

制造与质量控制

智能制造领域,数据挖掘技术被用于分析机械设备的传感器数据。通过应用预测性维护算法,工厂能够在设备故障发生前进行预测。此外,计算机视觉模型(如YOLO26)可生成推理日志,经数据挖掘后能识别重复出现的缺陷类型,从而协助工程师调整生产流程以降低废品率。

医疗诊断

数据挖掘通过分析电子健康记录和医学影像,正在改变医疗保健行业。研究人员挖掘基因组数据,以发现特定基因序列与疾病之间的关联。在放射学领域,挖掘大量X光数据有助于识别肺炎或肿瘤等疾病的早期征兆,从而辅助医学影像分析

区分相关术语

要全面理解数据挖掘,有必要将其与数据科学领域中密切相关的概念区分开来。

  • 数据挖掘与机器学习 虽然两者存在重叠,但数据挖掘侧重于发现现有模式,而机器学习则侧重于利用这些模式进行学习并预测未来结果。挖掘通常是探索性阶段,为机器学习模型的特征工程提供依据。
  • 数据挖掘与数据可视化 可视化是数据的图形化呈现(图表、图形)。挖掘则是生成待可视化洞察的分析过程。Tableau等工具用于可视化数据挖掘的结果。
  • 数据挖掘与数据仓库 数据仓库涉及对来自多个来源的大量数据进行集中存储和管理挖掘 则是仓储数据进行处理以提取价值的过程。

UltralUltralytics实践中的数据挖掘

在计算机视觉工作流中,"挖掘"通常发生在分析推理结果时,用于寻找高价值检测结果或棘手的边缘案例。Ultralytics 通过简化此流程,助力管理和分析数据集。

以下示例演示了如何使用YOLO26模型对图像集合进行"挖掘",以查找特定的高置信度检测结果。这模拟了从海量数据流中过滤相关事件的过程。

from ultralytics import YOLO

# Load the YOLO26n model
model = YOLO("yolo26n.pt")

# List of image paths (simulating a dataset)
image_files = ["image1.jpg", "image2.jpg", "image3.jpg"]

# Run inference on the batch
results = model(image_files)

# 'Mine' the results for high-confidence 'person' detections (class 0)
high_conf_people = []
for result in results:
    # Filter boxes where class is 0 (person) and confidence > 0.8
    detections = result.boxes[(result.boxes.cls == 0) & (result.boxes.conf > 0.8)]
    if len(detections) > 0:
        high_conf_people.append(result.path)

print(f"Found high-confidence people in: {high_conf_people}")

该代码片段演示了一项基础挖掘操作:过滤原始预测结果以提取感兴趣子集——即包含高置信度识别人物的图像,这些图像可用于主动学习以进一步提升模型性能。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入