术语表

DBSCAN(基于密度的带噪声应用空间聚类算法)

探索 DBSCAN:在机器学习中用于识别模式、处理噪声和分析复杂数据集的强大聚类算法。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

DBSCAN(基于密度的噪声应用空间聚类)是机器学习(ML)数据挖掘中常用的聚类算法。作为一种无监督学习方法,它将密集的数据点归类,而将单独位于低密度区域的点视为异常值或噪声。与 K-means 等划分方法不同的是,DBSCAN 可以发现任意形状的聚类,而且不需要事先指定聚类的数量,因此在人工智能(AI)领域的各种数据探索任务中用途广泛。

DBSCAN 如何工作

DBSCAN 基于密度可达性概念运行。它将聚类定义为数据点的密集区域,并由密度较低的区域分隔开来。该算法依赖于两个关键参数:"ε"(eps)和 "最小点"(minPts)。ε定义了两点之间被视为邻居的最大距离,实质上是为每个点设定了一个半径。MinPts 规定了一个点的ε邻域(包括该点本身)内被归类为 "核心点 "所需的最小点数。

积分分类如下

  • 核心点:核心点:在ε半径范围内至少有 minPts 邻居的点。这些点构成了一个群集的内部。
  • 边界点:可从核心点到达但本身没有 minPts 邻居的点。它们位于群集的边缘。
  • 噪声点(异常值):既不是核心点也不是边界点的点。它们位于低密度区域。

该算法从一个任意点开始,检索其ε邻域。如果它是一个核心点,就会启动一个新的簇。然后,该算法通过添加所有可直接到达的点(邻居)并迭代探索其邻域来扩展该簇。这个过程一直持续到没有点可以添加到任何聚类中为止。

主要优势

与其他聚类算法相比,DBSCAN 具有多项优势:

  • 有效处理噪声:它能明确识别和标注噪声点,而许多其他算法都很难做到这一点。
  • 任意聚类形状:它可以找到非球形的聚类,这与K-means 聚类等假设聚类为凸形或球形的算法不同。
  • 无需预先指定簇数:聚类数量由算法根据数据的密度结构决定。

但是,它可能对选择的 epsminPts在高维数据中,由于"维数诅咒".

实际应用

DBSCAN 能够找到密集组并隔离异常值,因此在各个领域都很有价值:

  1. 异常检测识别金融领域的异常交易,检测网络入侵以加强数据安全,或发现制造质量控制中的瑕疵品,通常是对制造系统中计算机视觉的补充。
  2. 地理空间数据分析:在地图上对事件(如犯罪或疾病爆发)的地点进行分组以确定热点,分析客户分布以进行零售规划,或在卫星图像分析中了解模式。这有助于为智慧城市开发人工智能解决方案。

DBSCAN 和Ultralytics

超数据分析 Ultralytics生态系统主要关注监督学习模型,如 Ultralytics YOLO等监督学习模型,用于物体检测图像分割等任务。虽然 DBSCAN 并没有直接在YOLO 核心训练循环中实现,但密度分析的基本原理与之相关。在分析数据集或解释检测模型输出(如对检测到的物体进行聚类)时,了解空间分布和密度至关重要。此外,Ultralytics HUB还提供了用于管理和分析数据集的工具,这与数据探索的大背景相吻合,其中 DBSCAN 等聚类技术发挥了重要作用。

有关更深入的技术细节,请参阅scikit-learn DBSCAN 文档等资源或原始研究论文:"在有噪声的大型空间数据库中发现聚类的基于密度的算法"

阅读全部