用語集

K平均クラスタリング

データをクラスタにグループ化するための重要な教師なし学習アルゴリズムであるK-Meansクラスタリングを学ぶ。そのプロセス、アプリケーション、比較を探る!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

K-Meansクラスタリングは、教師なし学習における基本的なアルゴリズムであり、データセットをあらかじめ決められた数(K)の、重複しないクラスタに分割するために広く使われている。これは、事前に定義されたラベルがない場合に、データ内の根本的なグループ構造を発見するのに特に効果的である。K-Meansの主な目的は、各クラスタ内の分散、具体的には各データポイントと割り当てられたクラスタのセントロイド(平均点)間の距離の二乗和を最小化することで、類似したデータポイントをグループ化することです。K-Meansはデータマイニングや探索的データ分析の基礎となる手法です。

K-Meansクラスタリングの仕組み

K-Meansアルゴリズムは、最適なクラスタ割り当てを見つけるために反復プロセスを通じて動作する:

  1. 初期化:データセットからK個のデータ点をランダムに選択し、クラスタの初期セントロイドとする。あるいは、k-means++のような手法を使ってセントロイドを初期化することもできる。
  2. 割り当てステップ:距離メトリック(一般的にはユークリッド距離)に基づいて、データセット内の各データ点を最も近いセントロイドに割り当てる。これによりK個の初期クラスタが形成される。
  3. 更新ステップ:各クラスタのセントロイドの位置を、そのクラスタに割り当てられたすべてのデータポイントの平均を取ることによって再計算する。
  4. 反復:セントロイドが大きく移動しなくなるまで、またはデータポイントがクラスタ割り当てを変更しなくなるまで、割り当てと更新のステップを繰り返します。

この反復的な改良により、アルゴリズムがクラスタのコンパクトさと分離を漸進的に改善することが保証される。K-Meansはそのシンプルさと計算効率の高さが評価され、大規模なデータセットに対してスケーラブルなものとなっています。クラスタリングの手法や実装をより深く知りたい場合は、scikit-learn clustering documentationのようなリソースが、詳細や例を豊富に提供しています。

K-Meansクラスタリングの応用

K-Meansクラスタリングは、人工知能(AI)や機械学習(ML)の多くの分野で応用されている。具体例を2つ紹介しよう:

  • 顧客セグメンテーション:小売業では、購買履歴、閲覧行動、または人口統計学に基づいて顧客をグループ化するためにK-Meansを使用することがよくあります。これにより、「頻繁に買い物をするユーザー」、「予算内で買い物をするユーザー」、「非活動的なユーザー」といった明確なセグメントを特定し、ターゲットを絞ったマーケティング・キャンペーンやパーソナライズされた商品の推奨が可能になる。これは、AIが小売業にどのような革命をもたらしているかという、より広範なトレンドと一致している。
  • 画像圧縮: コンピュータ・ビジョン(CV)において、K-Meansは画像圧縮の一形態である色量子化に使用することができる。ピクセルの色をK個のグループにクラスタリングすることで、このアルゴリズムは画像を表現するのに必要な色の数を減らし、視覚的な類似性を保ちながらファイルサイズを小さくします。このテクニックは様々な画像処理チュートリアルで紹介されています。

K-Meansクラスタリングと関連概念との比較

K-Meansと他のアルゴリズムの違いを理解することは、適切なツールを選択する上で極めて重要である:

  • K-Meansクラスタリング vs. DBSCAN:どちらも教師なし学習で使われるクラスタリング・アルゴリズムである。しかしK-Meansは、セントロイドに基づいて、あらかじめ定義された数(K)の球状クラスターにデータを分割する。対照的に、DBSCAN (Density-Based Spatial Clustering of Applications with Noise)は、データ点の密度に基づいてクラスタを識別するため、任意の形のクラスタを見つけ、外れ値(ノイズ)を自動的に検出することができる。DBSCANは、K-Meansとは異なり、事前にクラスタ数を指定する必要はありません。密度ベースのクラスタリング手法についてはこちらをご覧ください。
  • K-Meansクラスタリングと教師あり学習の比較:K-Meansは教師なし手法であり、ラベルのないデータで動作し、固有のパターンやグループ化を発見します。逆に、Ultralytics YOLO 物体検出や 画像分類に使用されているような教師あり学習アルゴリズムは、すでにラベルがあるデータ(例えば、物体のタイプや位置がラベル付けされた画像)から学習します。教師あり学習法は、学習されたマッピングに基づいて新しい未見のデータのラベルを予測することを目的としていますが、K-Meansはラベル(クラスタ)自体を作成することを目的としています。モデルの学習に使用される様々な教師あり学習データセットを調べることができる。

K-Meansをマスターすることは、データ構造を探求するための強力な基礎となります。Ultralytics HUBのようなツールは、データセットの管理とモデルのトレーニングに役立ち、クラスタリング技術から得られた洞察を活用してモデルのパフォーマンスを向上させたり、データの分布をより深く理解できる可能性があります。クラスタリング評価メトリクスをさらに探求することで、K-Meansの結果の質を評価することもできます。

すべて読む