DBSCAN'ı keşfedin: makine öğreniminde örüntüleri tanımlamak, gürültüyle başa çıkmak ve karmaşık veri kümelerini analiz etmek için sağlam bir kümeleme algoritması.
DBSCAN (Gürültülü Uygulamaların Yoğunluk Tabanlı Mekansal Kümelenmesi), makine öğrenimi (ML) ve veri madenciliğinde kullanılan popüler bir kümeleme algoritmasıdır. Bir tür denetimsiz öğrenme yöntemi olarak, birbirine yakın olan veri noktalarını bir araya getirir ve düşük yoğunluklu bölgelerde tek başına bulunan noktaları aykırı değer veya gürültü olarak işaretler. K-means gibi bölümleme yöntemlerinin aksine, DBSCAN rastgele şekillerdeki kümeleri keşfedebilir ve küme sayısının önceden belirlenmesini gerektirmez, bu da onu yapay zeka (AI) içindeki çeşitli veri keşif görevleri için çok yönlü hale getirir.
DBSCAN, yoğunluk erişilebilirliği kavramına dayalı olarak çalışır. Kümeleri, daha düşük yoğunluklu alanlarla ayrılmış yoğun veri noktaları bölgeleri olarak tanımlar. Algoritma iki temel parametreye dayanır: 'epsilon' (eps) ve 'minimum noktalar' (minPts). Epsilon, iki noktanın komşu olarak kabul edilmesi için aralarındaki maksimum mesafeyi tanımlar ve esasen her noktanın etrafında bir yarıçap belirler. MinPts, bir noktanın epsilon komşuluğunda (noktanın kendisi de dahil olmak üzere) 'çekirdek nokta' olarak sınıflandırılması için gereken minimum nokta sayısını belirtir.
Puanlar aşağıdaki gibi sınıflandırılır:
Algoritma rastgele bir nokta ile başlar ve epsilon komşuluğunu alır. Eğer bu bir çekirdek noktasıysa, yeni bir küme başlatılır. Algoritma daha sonra doğrudan erişilebilir tüm noktaları (komşular) ekleyerek ve komşuluklarını iteratif olarak keşfederek bu kümeyi genişletir. Bu süreç herhangi bir kümeye daha fazla nokta eklenemeyene kadar devam eder.
DBSCAN, diğer kümeleme algoritmalarına göre çeşitli avantajlar sunar:
Bununla birlikte, aşağıdaki seçeneklere duyarlı olabilir eps
ve minPts
nedeniyle yüksek boyutlu verilerde performansı düşebilir.boyutsallık laneti".
DBSCAN'in yoğun grupları bulma ve aykırı değerleri izole etme yeteneği onu çeşitli alanlarda değerli kılmaktadır:
Bu Ultralytics ekosistemi öncelikle aşağıdaki gibi denetimli öğrenme modellerine odaklanır Ultralytics YOLONesne algılama ve görüntü segmentasyonu gibi görevler için. DBSCAN, çekirdek YOLO eğitim döngüsünde doğrudan uygulanmasa da, yoğunluk analizinin altında yatan ilkeler konuyla ilgilidir. Mekansal dağılımı ve yoğunluğu anlamak, veri kümelerini analiz ederken veya algılama modellerinin çıktılarını yorumlarken (örneğin, algılanan nesneleri kümeleme) çok önemlidir. Ayrıca, Ultralytics HUB, DBSCAN gibi kümeleme tekniklerinin rol oynadığı daha geniş veri keşfi bağlamıyla uyumlu olarak veri kümelerini yönetmek ve analiz etmek için araçlar sunar.
Daha derin teknik ayrıntılar için scikit-learn DBSCAN belgeleri gibi kaynaklara veya orijinal araştırma makalesine bakın:"Gürültülü Büyük Mekansal Veritabanlarında Kümeleri Keşfetmek için Yoğunluk Tabanlı Bir Algoritma".