用語集

DBSCAN(ノイズを含むアプリケーションの密度ベース空間クラスタリング)

DBSCAN:機械学習におけるパターンの識別、ノイズの処理、複雑なデータセットの分析のためのロバストなクラスタリングアルゴリズムを発見してください。

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)は、 密集したデータ点をグループ化し、低密度領域に単独で存在する点を外れ値としてマークするために使われる、一般的な教師なし学習アルゴリズムである。他のクラスタリング手法とは異なり、DBSCANはクラスタ数を事前に指定する必要がない。任意形状のクラスタを見つける能力とノイズに対する頑健性により、データマイニングや データ分析の強力なツールとなる。このアルゴリズムは、Martin Ester、Hans-Peter Kriegel、Jörg Sander、Xiaowei Xuによる1996年の論文で初めて紹介され、この分野の基礎的な研究となった。

DBSCANの仕組み

DBSCANは、与えられた空間におけるデータ点の密度に基づいてクラスタを定義する。DBSCANは2つの重要なパラメータで動作する:

  • イプシロン(εまたは eps): このパラメータはデータ点の周りの近傍半径を定義する。この距離内の点はすべて近傍とみなされる。
  • 最小ポイント数(MinPts):これは、密な領域またはクラスタを形成するために必要なデータポイント(ポイント自体を含む)の最小数です。

これらのパラメータに基づいて、DBSCANはすべてのデータポイントを3つのタイプのいずれかに分類する:

  1. コア・ポイント 点とは、少なくとも次のような点を持つ点を指す。 MinPts その eps 近傍。これらの点はクラスターの内部である。
  2. ボーダー・ポイント の範囲内にある場合、その点は境界点となる。 eps コア点の近傍にあるが、コア点になるだけの近傍点を持たない点。これらの点はクラスターのエッジを形成する。
  3. ノイズ・ポイント(外れ値):コア点でもボーダー点でもない点はノイズとみなされる。これらはどのクラスターにも属さない外れ値である。

アルゴリズムは任意の点から始まり、その近傍を検索する。それがコア点であれば、新しいクラスタが作成される。アルゴリズムは次に、直接到達可能なすべての近傍点をクラスタに追加することで、クラスタを反復的に拡張する。scikit-learn のドキュメントで視覚的な実装を見ることができる。

実際のAI/MLアプリケーション

DBSCANはノイズを識別し、非線形のクラスターを発見する能力があるため、様々な領域で高い価値を発揮する:

  • 地理空間分析:都市計画者や地理学者はDBSCANを使って空間データを分析する。例えば、交通事故のGPS座標をクラスタリングすることで、事故のホットスポットを特定することができる。同様に、DBSCANは、報告された病気の症例のクラスターを見つけるために使用することができ、疫学者がアウトブレイクを追跡するのに役立ちます。日本の国土地理院のような組織も、地図作成に同様の密度ベースの手法を使用している。
  • 金融における異常検知:金融分野では、DBSCANは不正取引の検出に利用できる。顧客の典型的な支出パターンをクラスタリングすることで、これらのクラスタから外れた(つまりノイズとラベル付けされた)取引は、さらなる調査のためにフラグを立てることができる。このアプローチは、最新の不正検知システムの重要な構成要素である。

DBSCANとウルトラリティクス

Ultralyticsエコシステムは、物体検出画像分類インスタンスセグメンテーションを含むタスクのためのUltralytics YOLOなどの 教師あり学習モデルに主に焦点を当てています。DBSCANは教師なし手法ですが、その原理はコンピュータビジョン(CV)のより広い文脈に関連しています。

例えば、YOLO11のようなモデルを使って、混雑した通りのビデオ上で物体検出を行った後、検出されたバウンディングボックスの中心座標にDBSCANを適用することができる。この後処理ステップにより、個々の歩行者検出を明確な群れにグループ化し、より高度なシーン理解を提供することができる。データの分布を理解することは、トレーニング用のデータセットを準備する際にも重要である。DBSCANを使用した探索的データ分析により、データセット内のパターンや異常が明らかになり、Ultralytics HUBのようなプラットフォームを使用して管理・可視化することができます。

関連用語との区別

  • K-Meansクラスタリング 最も大きな違いは、K-Meansではクラスターの数を指定する必要があることである(k)をあらかじめ設定するのに対して、DBSCANは自動的にクラスタ数を決定する。K-Meansはまた、非球状のクラスターに苦戦し、すべての点を強制的にクラスターに入れるので、外れ値に敏感である。DBSCANは任意形状のクラスタを見つけることに優れており、外れ値をノイズとして効果的に分離する。
  • 階層的クラスタリング:この手法は、デンドログラムとして知られるクラスタの木を作成する。入れ子になったクラスタ構造を可視化するのに便利ですが、DBSCANに比べて大規模なデータセットでは計算コストが高くなります。適切なクラスタリング・アルゴリズムを選択するためのガイドに概説されているように、両者の選択はしばしばデータセット・サイズと希望する出力に依存する。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク