探索 DBSCAN:在机器学习中用于识别模式、处理噪声和分析复杂数据集的强大聚类算法。
DBSCAN(基于密度的有噪声应用空间聚类)是机器学习(ML)和数据挖掘中广泛使用的聚类算法。它属于无监督学习方法,也就是说,它可以在没有预定义标签的情况下发现数据中的模式。DBSCAN 擅长将特征空间中紧密聚集在一起的数据点分组,能有效识别任意形状的簇。它的一个主要优势是能将低密度区域中的孤立点标记为离群点或噪声,从而使其在实际数据集中具有很强的鲁棒性。与需要事先指定聚类数量的算法不同,DBSCAN 根据数据密度确定聚类,为人工智能(AI)中的各种数据探索任务提供了灵活性。
DBSCAN 基于密度可达性的概念来识别聚类。它将聚类视为被低密度区域分隔开来的高密度区域。该算法的行为主要由两个参数控制:
根据这些参数,数据点被分为三类:
minPts
内的邻居 eps
半径。这些点通常位于集群的内部。eps
核心点的半径),但没有 minPts
邻居本身。边界点位于聚类的边缘。该算法首先任意选择一个未访问过的数据点。它通过检查该点的 eps
-邻域。如果它是一个核心点,就会形成一个新的簇,算法会递归地将所有密度可达到的点(邻域中的核心点和边界点)添加到这个簇中。如果被选中的点是一个噪声点,则会被暂时标记为噪声点,然后算法会移动到下一个未访问的点。这个过程一直持续到所有点都被访问并分配到一个群组或标记为噪声点为止。如需深入了解原始方法,请查阅研究论文:"在有噪声的大型空间数据库中发现聚类的基于密度的算法".
DBSCAN 有几个优点:
不过,它也有局限性:
eps
和 minPts
.寻找最佳参数是一项挑战。像 scikit-learn 提供的实现 可以调整。eps
-minPts
这种组合可能并不适用于所有集群。DBSCAN 经常与其他聚类算法,特别是K-means 聚类算法进行比较。主要区别包括
k
),而 DBSCAN 是自动确定的。DBSCAN 能够找到密集组并隔离异常值,因此适用于各种应用:
超数据分析 Ultralytics生态系统主要关注监督学习模型,例如 Ultralytics YOLO等监督学习模型,用于物体检测、图像分类和图像分割等任务。DBSCAN 作为一种无监督方法,并没有直接集成到 YOLOv8 等模型的核心训练循环中。 YOLOv8或 YOLO11其原理与计算机视觉 (CV)和数据分析的更广泛背景相关。在准备和分析用于训练的数据集或对模型输出进行后处理(例如在推理后根据空间距离对检测到的物体进行聚类)时,了解数据密度和分布至关重要。Ultralytics HUB等平台提供了数据集管理和可视化工具,可以对探索性数据分析技术(可能会应用 DBSCAN 等聚类算法)进行补充。