DBSCAN:機械学習におけるパターンの識別、ノイズの処理、複雑なデータセットの分析のためのロバストなクラスタリングアルゴリズムを発見してください。
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)は、 密集したデータ点をグループ化し、低密度領域に単独で存在する点を外れ値としてマークするために使われる、一般的な教師なし学習アルゴリズムである。他のクラスタリング手法とは異なり、DBSCANはクラスタ数を事前に指定する必要がない。任意形状のクラスタを見つける能力とノイズに対する頑健性により、データマイニングや データ分析の強力なツールとなる。このアルゴリズムは、Martin Ester、Hans-Peter Kriegel、Jörg Sander、Xiaowei Xuによる1996年の論文で初めて紹介され、この分野の基礎的な研究となった。
DBSCANは、与えられた空間におけるデータ点の密度に基づいてクラスタを定義する。DBSCANは2つの重要なパラメータで動作する:
eps
): このパラメータはデータ点の周りの近傍半径を定義する。この距離内の点はすべて近傍とみなされる。これらのパラメータに基づいて、DBSCANはすべてのデータポイントを3つのタイプのいずれかに分類する:
MinPts
その eps
近傍。これらの点はクラスターの内部である。eps
コア点の近傍にあるが、コア点になるだけの近傍点を持たない点。これらの点はクラスターのエッジを形成する。アルゴリズムは任意の点から始まり、その近傍を検索する。それがコア点であれば、新しいクラスタが作成される。アルゴリズムは次に、直接到達可能なすべての近傍点をクラスタに追加することで、クラスタを反復的に拡張する。scikit-learn のドキュメントで視覚的な実装を見ることができる。
DBSCANはノイズを識別し、非線形のクラスターを発見する能力があるため、様々な領域で高い価値を発揮する:
Ultralyticsエコシステムは、物体検出、画像分類、インスタンスセグメンテーションを含むタスクのためのUltralytics YOLOなどの 教師あり学習モデルに主に焦点を当てています。DBSCANは教師なし手法ですが、その原理はコンピュータビジョン(CV)のより広い文脈に関連しています。
例えば、YOLO11のようなモデルを使って、混雑した通りのビデオ上で物体検出を行った後、検出されたバウンディングボックスの中心座標にDBSCANを適用することができる。この後処理ステップにより、個々の歩行者検出を明確な群れにグループ化し、より高度なシーン理解を提供することができる。データの分布を理解することは、トレーニング用のデータセットを準備する際にも重要である。DBSCANを使用した探索的データ分析により、データセット内のパターンや異常が明らかになり、Ultralytics HUBのようなプラットフォームを使用して管理・可視化することができます。
k
)をあらかじめ設定するのに対して、DBSCANは自動的にクラスタ数を決定する。K-Meansはまた、非球状のクラスターに苦戦し、すべての点を強制的にクラスターに入れるので、外れ値に敏感である。DBSCANは任意形状のクラスタを見つけることに優れており、外れ値をノイズとして効果的に分離する。