Sözlük

K-Means Kümeleme

Verileri kümeler halinde gruplamak için önemli bir denetimsiz öğrenme algoritması olan K-Means Kümelemeyi öğrenin. Süreci, uygulamaları ve karşılaştırmaları keşfedin!

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

K-Means Kümeleme, denetimsiz öğrenmede temel bir algoritmadır ve bir veri kümesini önceden belirlenmiş sayıda (K) farklı, örtüşmeyen kümelere ayırmak için yaygın olarak kullanılır. Önceden tanımlanmış etiketleriniz olmadığında veri içindeki altta yatan grup yapılarını keşfetmek için özellikle etkilidir. K-Means'in temel amacı, her bir küme içindeki varyansı, özellikle de her bir veri noktası ile atandığı kümenin centroidi (ortalama noktası) arasındaki karesel uzaklıkların toplamını en aza indirerek benzer veri noktalarını bir araya getirmektir. Veri madenciliği ve keşifsel veri analizinde bir köşe taşı tekniğidir.

K-Means Kümeleme Nasıl Çalışır?

K-Means algoritması, optimum küme atamalarını bulmak için yinelemeli bir süreçle çalışır. Süreç tipik olarak şu adımları içerir:

  1. Başlatma: İlk olarak, küme sayısı, K, belirlenmelidir. Bu çok önemli bir adımdır ve genellikle bazı alan bilgilerini veya deneyleri içerir, bazen hiperparametre ayarlama tekniklerini veya optimum K'yı bulmak için dirsek yöntemi gibi yöntemleri içerir (bkz. Doğru küme sayısını seçme). Ardından, genellikle veri kümesinden rastgele K veri noktası seçilerek veya K-Means++ gibi daha sofistike yöntemler kullanılarak K başlangıç merkezi seçilir.
  2. Atama Adımı: Veri kümesindeki her veri noktası en yakın centroid'e atanır. "Yakınlık" tipik olarak Öklid mesafesi kullanılarak ölçülür, ancak veri özelliklerine bağlı olarak diğer mesafe ölçümleri de kullanılabilir. Bu adım K başlangıç kümesi oluşturur.
  3. Güncelleme Adımı: Yeni oluşan kümelerin merkezroidleri yeniden hesaplanır. Yeni centroid, o kümeye atanan tüm veri noktalarının ortalamasıdır.
  4. Yineleme: 2. ve 3. adımlar bir durdurma kriteri karşılanana kadar tekrarlanır. Yaygın kriterler arasında merkezlerin artık önemli ölçüde hareket etmemesi, veri noktalarının artık küme atamalarını değiştirmemesi veya maksimum iterasyon sayısına ulaşılması yer alır.

Bu yinelemeli iyileştirme, algoritmanın kümelerin kompaktlığını ve ayrımını aşamalı olarak geliştirmesini sağlar. K-Means basitliği ve hesaplama verimliliği ile büyük veri kümeleri için ölçeklenebilir hale gelir. Mekaniği ve uygulamaları daha derinlemesine incelemek için Stanford CS221 K-Means notları veya scikit-learn kümeleme belgeleri gibi kaynaklar kapsamlı ayrıntılar sunmaktadır.

K-Means Kümeleme Uygulamaları

K-Means Kümeleme, Yapay Zeka (AI) ve Makine Öğrenimi (ML) dahilinde çok sayıda alanda uygulama alanı bulmaktadır. İşte iki somut örnek:

  • Müşteri Segmentasyonu: İşletmeler genellikle müşterileri satın alma geçmişine, demografik özelliklerine veya web sitesi davranışlarına göre gruplandırmak için K-Means kullanır. Örneğin, bir e-ticaret şirketi müşterileri 'yüksek harcama yapan sık alışveriş yapanlar', 'bütçe bilincine sahip ara sıra alışveriş yapanlar' gibi gruplar halinde kümeleyebilir. Bu, hedeflenen pazarlama kampanyalarına ve kişiselleştirilmiş ürün önerilerine olanak tanıyarak Perakendede Yapay Zeka'da tartışılan stratejilere katkıda bulunur. Müşteri Segmentasyonunu anlamak pazarlama analitiğinde kilit öneme sahiptir.
  • Görüntü Sıkıştırma ve Renk Niceleme: Bilgisayarla Görme (CV) alanında K-Means, bir tür kayıplı görüntü sıkıştırması olan renk niceleme için kullanılabilir. Algoritma, bir görüntünün renk paletindeki benzer renkleri K kümeleri halinde gruplandırır. Her pikselin rengi daha sonra ait olduğu kümenin merkezinin rengiyle değiştirilir. Bu, görüntüyü temsil etmek için gereken renk sayısını önemli ölçüde azaltır ve böylece görüntüyü sıkıştırır. Bu teknik, çeşitli görüntü işleme görevlerinde ve hatta Sanat ve Kültürel Mirasın Korunmasında Yapay Zeka gibi alanlarda kullanışlıdır.

K-Means Kümeleme ve İlgili Kavramlar

K-Means ve diğer algoritmalar arasındaki farkları anlamak, doğru aracı seçmek için çok önemlidir:

  • K-Means vs. DBSCAN: Her ikisi de kümeleme algoritmasıdır, ancak farklı şekilde çalışırlar. K-Means verileri önceden belirlenmiş sayıda (K) küresel kümelere ayırır ve aykırı değerlere karşı hassas olabilir. DBSCAN (Gürültülü Uygulamaların Yoğunluk Tabanlı Mekansal Kümelenmesi) ise noktaları yoğunluğa göre gruplandırarak keyfi şekilli kümeler bulmasını ve aykırı değerleri gürültü olarak tanımlamasını sağlar. Küme sayısının önceden belirlenmesini gerektirmez. Yoğunluk tabanlı kümeleme yöntemleri hakkında daha fazla bilgi edinin.
  • K-Means ve Denetimli Öğrenme: K-Means denetimsiz bir öğrenme yöntemidir, yani içsel yapıları bulmak için etiketlenmemiş verilerle çalışır. Buna karşılık, nesne algılama veya görüntü sınıflandırması için kullanılanlar gibi Denetimli Öğrenme algoritmaları, yeni, görünmeyen veriler için sonuçları tahmin eden bir modeli eğitmek için etiketli veriler (yani, bilinen sonuçlara veya kategorilere sahip veriler) gerektirir. Ultralytics , bu tür görevler için çeşitli Denetimli Öğrenme Veri Kümeleri sağlar.
  • K-Means vs Hiyerarşik Kümeleme: K-Means düz bir küme kümesi üretirken, Hiyerarşik Kümeleme bir hiyerarşi veya küme ağacı (dendrogram) oluşturur. Bu, farklı ayrıntı düzeylerinde küme yapılarının keşfedilmesine olanak tanır, ancak özellikle Büyük Veri için genellikle K-Means'e göre hesaplama açısından daha yoğundur.

K-Means konusunda uzmanlaşmak, veri yapısını keşfetmek için güçlü bir temel sağlar. gibi modellerde doğrudan kullanılmasa da Ultralytics YOLO Tespit için kümelemeyi anlamak, Veri Ön İşlemeye veya veri kümesi özelliklerini analiz etmeye yardımcı olabilir. Ultralytics HUB gibi araçlar, yüksek doğruluk gerektiren görevlerin üstesinden gelmeden önce veri dağılımlarını daha iyi anlamak için kümeleme tekniklerinden elde edilen içgörülerden potansiyel olarak yararlanarak veri kümelerini yönetmeye ve modelleri eğitmeye yardımcı olabilir. Kümeleme değerlendirme metriklerinin (Silhouette Score veya Davies-Bouldin Index gibi) daha fazla araştırılması da standart YOLO Performans Metriklerini tamamlayarak K-Means sonuçlarının kalitesinin değerlendirilmesine yardımcı olabilir. Daha geniş tanıtımlar için IBM'in K-Means açıklaması gibi kaynakları veya Coursera veya DataCamp gibi platformlardaki giriş kurslarını değerlendirin. Ultralytics Docs'ta daha fazla öğretici ve kılavuz bulabilirsiniz.

Tümünü okuyun