DBSCAN'ı keşfedin: örüntüleri tanımlamak, gürültüyle başa çıkmak ve makine öğreniminde karmaşık veri kümelerini analiz etmek için sağlam bir kümeleme algoritması.
DBSCAN (Gürültülü Uygulamaların Yoğunluk Tabanlı Mekansal Kümelenmesi), birbirine yakın veri noktalarını bir araya getirmek için kullanılan ve düşük yoğunluklu bölgelerde tek başına bulunan noktaları aykırı değer olarak işaretleyen popüler bir denetimsiz öğrenme algoritmasıdır. Diğer kümeleme yöntemlerinin aksine, DBSCAN küme sayısının önceden belirlenmesini gerektirmez. Keyfi olarak şekillendirilmiş kümeleri bulma yeteneği ve gürültüye karşı sağlamlığı, onu veri madenciliği ve veri analitiği için güçlü bir araç haline getirmektedir. Algoritma ilk olarak Martin Ester, Hans-Peter Kriegel, Jörg Sander ve Xiaowei Xu tarafından 1996 yılında yayınlanan ve bu alanda temel bir çalışma haline gelen bir makalede tanıtılmıştır.
DBSCAN, belirli bir alandaki veri noktalarının yoğunluğuna dayalı olarak kümeleri tanımlar. İki anahtar parametre üzerinde çalışır:
eps
): Bu parametre, bir veri noktasının etrafındaki komşuluğun yarıçapını tanımlar. Bu mesafe içindeki tüm noktalar komşu olarak kabul edilir.Bu parametrelere dayanarak, DBSCAN her veri noktasını üç türden birine sınıflandırır:
MinPts
kendi içinde eps
komşuluk. Bu noktalar bir kümenin iç kısmıdır.eps
Bir çekirdek noktanın komşuluğu ancak kendisi bir çekirdek nokta olmak için yeterli komşuya sahip değildir. Bu noktalar bir kümenin kenarını oluşturur.Algoritma rastgele bir nokta ile başlar ve komşuluğunu alır. Eğer bu bir çekirdek noktasıysa, yeni bir küme oluşturulur. Algoritma daha sonra doğrudan ulaşılabilen tüm komşuları ekleyerek kümeyi yinelemeli olarak genişletir; bu işlem herhangi bir kümeye daha fazla nokta eklenemeyene kadar devam eder. Scikit-learn dokümantasyonunda görsel bir uygulama görebilirsiniz.
DBSCAN'in gürültüyü belirleme ve doğrusal olmayan kümeleri keşfetme yeteneği, onu çeşitli alanlarda oldukça değerli kılmaktadır:
Ultralytics ekosistemi öncelikle nesne algılama, görüntü sınıflandırma ve örnek segmentasyonu gibi görevler için Ultralytics YOLO gibi denetimli öğrenme modellerine odaklanır. DBSCAN denetimsiz bir yöntem olsa da, ilkeleri daha geniş bilgisayarla görme (CV) bağlamıyla ilgilidir.
Örneğin, işlek bir caddenin videosunda YOLO11 gibi bir modelle nesne tespiti yaptıktan sonra, tespit edilen sınırlayıcı kutuların merkez koordinatlarına DBSCAN uygulanabilir. Bu işlem sonrası adım, bireysel yaya tespitlerini farklı kalabalıklar halinde gruplandırarak daha yüksek düzeyde bir sahne anlayışı sağlayabilir. Veri dağılımını anlamak, eğitim için veri kümeleri hazırlarken de çok önemlidir. DBSCAN kullanılarak yapılan keşifsel veri analizi, Ultralytics HUB gibi platformlar kullanılarak yönetilebilen ve görselleştirilebilen veri kümesindeki kalıpları veya anormallikleri ortaya çıkarabilir.
k
) önceden belirlerken, DBSCAN küme sayısını otomatik olarak belirler. K-Means ayrıca küresel olmayan kümelerle de mücadele eder ve her noktayı bir kümeye zorladığı için aykırı değerlere karşı hassastır. DBSCAN keyfi olarak şekillendirilmiş kümeleri bulmada üstündür ve aykırı değerleri gürültü olarak etkili bir şekilde izole eder.