DBSCAN'ı keşfedin: makine öğreniminde örüntüleri tanımlamak, gürültüyle başa çıkmak ve karmaşık veri kümelerini analiz etmek için sağlam bir kümeleme algoritması.
DBSCAN (Gürültülü Uygulamaların Yoğunluk Tabanlı Mekânsal Kümelenmesi), makine öğrenimi (ML) ve veri madenciliğinde yaygın olarak kullanılan bir kümeleme algoritmasıdır. Denetimsiz öğrenme yöntemleri kategorisine aittir, yani önceden tanımlanmış etiketler olmadan verilerdeki kalıpları keşfeder. DBSCAN, özellik uzayında birbirine yakın bir şekilde paketlenmiş veri noktalarını gruplamada ve rastgele şekillerdeki kümeleri etkili bir şekilde tanımlamada başarılıdır. Önemli bir gücü, düşük yoğunluklu bölgelerdeki izole noktaları aykırı değer veya gürültü olarak işaretleme yeteneğidir, bu da onu gerçek dünya veri kümeleri için sağlam kılar. Küme sayısının önceden belirlenmesini gerektiren algoritmaların aksine, DBSCAN kümeleri veri yoğunluğuna göre belirleyerek yapay zeka (AI) dahilindeki çeşitli veri keşif görevlerinde esneklik sunar.
DBSCAN, yoğunluk erişilebilirliği kavramına dayalı olarak kümeleri tanımlar. Kümeleri düşük yoğunluklu alanlarla ayrılmış yüksek yoğunluklu alanlar olarak görür. Algoritmanın davranışı temel olarak iki parametre tarafından kontrol edilir:
Bu parametrelere dayanarak, veri noktaları üç türe ayrılır:
minPts
içindeki komşuları eps
yarıçap. Bu noktalar tipik olarak bir kümenin iç kısmında yer alır.eps
bir çekirdek noktasının yarıçapı) ancak minPts
kendisine komşudur. Sınır noktaları kümelerin kenarında yer alır.Algoritma, rastgele, ziyaret edilmemiş bir veri noktası seçerek başlar. Noktanın çekirdek nokta olup olmadığını kontrol etmek için eps
-komşuluk. Eğer bu bir çekirdek noktasıysa, yeni bir küme oluşturulur ve algoritma yoğunluğa erişilebilen tüm noktaları (komşuluktaki çekirdek ve sınır noktaları) bu kümeye özyinelemeli olarak ekler. Seçilen nokta bir gürültü noktasıysa, geçici olarak bu şekilde işaretlenir ve algoritma bir sonraki ziyaret edilmemiş noktaya geçer. Bu işlem, tüm noktalar ziyaret edilip bir kümeye atanana veya gürültü olarak işaretlenene kadar devam eder. Orijinal metodolojiyi daha derinlemesine incelemek için araştırma makalesine başvurabilirsiniz: "Gürültülü Büyük Mekânsal Veri Tabanlarında Kümeleri Keşfetmek için Yoğunluk Tabanlı Bir Algoritma".
DBSCAN çeşitli avantajlar sunar:
Bununla birlikte, sınırlamaları da vardır:
eps
ve minPts
. Optimum parametreleri bulmak zor olabilir. Gibi araçlar scikit-learn teklif uygulamaları ayarlanabilen.eps
-minPts
kombinasyonu tüm kümeler için iyi çalışmayabilir.DBSCAN genellikle diğer kümeleme algoritmalarıyla, özellikle de K-ortalamalar kümelemesiyle karşılaştırılır. Temel farklılıklar şunlardır:
k
) önceden belirlerken, DBSCAN bunu otomatik olarak belirler.DBSCAN'in yoğun grupları bulma ve aykırı değerleri izole etme yeteneği, onu çeşitli uygulamalar için uygun hale getirir:
Bu Ultralytics ekosistemi öncelikle aşağıdaki gibi denetimli öğrenme modellerine odaklanır Ultralytics YOLONesne algılama, görüntü sınıflandırma ve görüntü segmentasyonu gibi görevler için. DBSCAN, denetimsiz bir yöntem olmakla birlikte, aşağıdaki gibi modellerin temel eğitim döngülerine doğrudan entegre edilmemiştir YOLOv8 veya YOLO11ilkeleri, bilgisayarla görme (CV) ve veri analizinin daha geniş bağlamıyla ilgilidir. Veri yoğunluğunu ve dağılımını anlamak, eğitim için veri kümelerini hazırlarken ve analiz ederken veya model çıktılarını sonradan işlerken, örneğin çıkarımdan sonra algılanan nesneleri uzamsal yakınlıklarına göre kümelerken çok önemlidir. Ultralytics HUB gibi platformlar, DBSCAN gibi kümeleme algoritmalarının uygulanabileceği keşifsel veri analizi tekniklerini tamamlayabilecek veri kümesi yönetimi ve görselleştirme araçları sağlar.