用語集

K平均クラスタリング

データをクラスタにグループ化するための重要な教師なし学習アルゴリズムであるK-Meansクラスタリングを学ぶ。そのプロセス、アプリケーション、比較を探る!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

K-Meansクラスタリングは、データセットをK個の異なる、重複しないサブグループ(クラスタ)に分割するために使用される、一般的な教師なし学習アルゴリズムです。この方法は、グループに関する事前知識なしにデータ内の固有のグルーピングを識別する必要がある場合に特に有用です。K-Meansクラスタリングの目的は、データ点と割り当てられたクラスタの重心との距離の二乗和を最小化し、類似したデータ点を効果的にグループ化することです。

K-Meansクラスタリングの仕組み

K-Meansクラスタリングアルゴリズムは、単純な反復プロセスに従う:

  1. 初期化:データセットからK個のデータ点をランダムに選択し、クラスタの初期セントロイド(中心点)とする。
  2. 割り当て:距離メトリック(典型的にはユークリッド距離)に基づいて、各データ点を最も近いセントロイドに割り当てる。このステップでK個のクラスタを形成する。
  3. 更新:そのクラスタに割り当てられたすべてのデータポイントの平均を計算することによって、各クラスタのセントロイドを再計算する。
  4. 反復:セントロイドが大きく変化しなくなるまで、または最大反復回数に達するまで、ステップ2と3を繰り返す。これはクラスタが安定したことを示す。

この反復的な絞り込みプロセスにより、データ点が特徴空間内で最も近傍にあるものとグループ化され、まとまりのあるクラスタが作成される。K-Meansは効率的で、そのシンプルさと大規模データセットへのスケーラビリティにより、広く使用されています。クラスタリングアルゴリズムをより深く理解するには、scikit-learnのクラスタリングドキュメントのようなリソースを調べるとよいでしょう。

K-Meansクラスタリングの応用

K-Meansクラスタリングは、特に人工知能や機械学習など、様々な分野で幅広く応用されている。いくつか例を挙げよう:

  • 小売業における顧客セグメンテーション企業はK-Meansクラスタリングを使用して、購買行動、人口統計、またはWebサイトのアクティビティに基づいて顧客をセグメント化することができます。これにより、ターゲットを絞ったマーケティング戦略、パーソナライズされたレコメンデーション、顧客関係管理の改善が可能になります。例えば、小売業者は顧客の購買履歴を分析し、「高額顧客」、「バーゲン・ハンター」、「新規顧客」といった明確なグループを特定し、それに応じてマーケティング・キャンペーンを調整することができる。

  • 異常検出:K-Meansは、どのクラスタにも属さない、あるいはクラスタの中心から離れたデータ点を識別することで、異常検出に使用することができる。コンピュータ・ビジョンでは、これは製造における欠陥の検出や、監視映像における異常な活動の識別に使用できる。例えば、品質管理プロセスでは、Ultralytics YOLO モデルによる製造のコンピュータビジョンを使用して製品の欠陥を検出することができ、K-Means によって欠陥の特徴をクラスタリングし、さらなる検査のために異常を強調することができます。AIにおける異常検出技術とその応用についてもっと知る。

K-Meansクラスタリングと関連概念との比較

K-Meansクラスタリングは強力なツールであるが、他の関連概念と区別することが重要である:

  • K-MeansクラスタリングとDBSCANの比較:どちらも教師なし学習クラスタリング・アルゴリズムであるが、K-Meansは重心ベースであり、球状のクラスタを作成することを目的としているのに対し、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)は密度ベースであり、任意の形状のクラスタを発見し、ノイズ点を外れ値として識別することができる。DBSCANは外れ値に対してより頑健であり、K-Meansとは異なり、事前にクラスタ数を指定する必要がない。

  • K-Meansクラスタリングと教師あり学習の比較:K-Meansクラスタリングは教師なし学習技法であり、ラベル付けされていないデータを使ってパターンを見つける。対照的に、Ultralytics YOLO を使って訓練された画像分類モデルのような教師あり学習アルゴリズムは、ラベル付きデータから学習して予測や分類を行う。教師あり学習では事前に定義されたカテゴリーが必要だが、K-Meansはデータそのものからカテゴリーを発見する。

K-Meansクラスタリングとそのアプリケーションを理解することは、様々な領域で機械学習(ML)を活用するための貴重な洞察を提供する。Ultralytics HUBのようなプラットフォームは、データセットの管理と、クラスタリング技術によって得られたデータ洞察から利益を得るモデルの展開をさらに支援することができる。

すべて読む