用語集

DBSCAN(ノイズを含むアプリケーションの密度ベース空間クラスタリング)

DBSCAN:機械学習におけるパターンの識別、ノイズの処理、複雑なデータセットの分析のためのロバストなクラスタリングアルゴリズムを発見してください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)は、機械学習(ML)やデータマイニングでよく使われるクラスタリングアルゴリズムである。教師なし学習法の一種として、密に詰まったデータ点をグループ化し、密度の低い領域に単独で存在する点を外れ値またはノイズとしてマークする。K-meansのような分割手法とは異なり、DBSCANは任意の形状のクラスタを発見することができ、クラスタの数を事前に指定する必要がないため、人工知能(AI)のさまざまなデータ探索タスクに汎用性がある。

DBSCANの仕組み

DBSCANは密度到達性の概念に基づいて動作する。DBSCANは、低密度の領域で区切られたデータポイントの密集領域としてクラスターを定義する。アルゴリズムは2つの重要なパラメータに依存する:「イプシロン」(eps)と「最小ポイント」(minPts)。εは、2つの点が近傍とみなされるための2点間の最大距離を定義し、実質的に各点を囲む半径を設定する。MinPtsは、ある点が「コア点」として分類されるために、その点のε-近傍領域(その点自身を含む)内に必要な点の最小数を指定する。

ポイントは以下のように分類される:

  • コア点:ε半径内に少なくともminPtsの近傍点を持つ点。これらはクラスターの内部を形成する。
  • ボーダーポイント:コア点から到達可能だが、隣接する minPts を持たない点。クラスターの端に位置する。
  • ノイズ・ポイント(外れ値):中核点でも境界点でもない点。密度の低い領域に存在する。

アルゴリズムは任意の点から開始し、そのε-近傍を検索する。それがコア点であれば、新しいクラスタが開始される。次にアルゴリズムは、直接到達可能なすべての点(近傍点)を追加し、それらの近傍を繰り返し探索することで、このクラスタを拡張する。このプロセスは、これ以上どのクラスターにも点を追加できなくなるまで続けられる。

主な利点

DBSCANは他のクラスタリングアルゴリズムに比べていくつかの利点がある:

  • ノイズを効果的に処理:他の多くのアルゴリズムが苦手とするノイズポイントを明示的に識別し、ラベル付けします。
  • 任意のクラスター形状: K-meansクラスタリングのような、クラスターが凸状または球状であることを前提とするアルゴリズムとは異なり、非球状のクラスターを見つけることができる。
  • クラスター数を事前に指定する必要なし:クラスター数は、データの密度構造に基づいてアルゴリズムが決定する。

しかし、以下のような選択には敏感である。 eps そして minPtsまた、高次元データでは、"次元の呪い".

実世界での応用

DBSCANは、密集したグループを見つけ、外れ値を分離する能力があるため、様々な分野で重宝されている:

  1. 異常検知金融における異常な取引の特定、データ・セキュリティ強化のためのネットワーク侵入の検出、製造品質管理における不良品の発見など、多くの場合、製造システムにおけるコンピュータ・ビジョンを補完する。
  2. 地理空間データ分析:犯罪や病気の発生など)事件の発生場所を地図上にグループ化してホットスポットを特定したり、小売店計画のために顧客分布を分析したり、衛星画像分析でパターンを把握したりする。これは、スマートシティにおけるAIのソリューション開発に役立つ。

DBSCANとUltralytics

ウルトラリティクス Ultralyticsエコシステムは主に Ultralytics YOLOのような教師あり学習モデルに焦点を当てています。DBSCANはコアとなるYOLO トレーニングループには直接実装されていませんが、密度分析の基本原理は関連しています。空間分布と密度を理解することは、データセットを分析したり、検出モデルの出力(検出されたオブジェクトのクラスタリングなど)を解釈したりする際に非常に重要です。さらに、Ultralytics HUBは、データセットの管理と分析のためのツールを提供し、DBSCANのようなクラスタリング技術が役割を果たすデータ探索のより広い文脈と一致します。

技術的な詳細については、scikit-learnのDBSCANドキュメントや元の研究論文を参照してください:「A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise(ノイズを含む大規模空間データベースにおけるクラスタ発見のための密度に基づくアルゴリズム)」。

すべて読む