Sözlük

DBSCAN (Gürültülü Uygulamaların Yoğunluk Tabanlı Mekansal Kümelenmesi)

DBSCAN'ı keşfedin: makine öğreniminde örüntüleri tanımlamak, gürültüyle başa çıkmak ve karmaşık veri kümelerini analiz etmek için sağlam bir kümeleme algoritması.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

DBSCAN (Gürültülü Uygulamaların Yoğunluk Tabanlı Mekânsal Kümelenmesi), makine öğrenimi (ML) ve veri madenciliğinde yaygın olarak kullanılan bir kümeleme algoritmasıdır. Denetimsiz öğrenme yöntemleri kategorisine aittir, yani önceden tanımlanmış etiketler olmadan verilerdeki kalıpları keşfeder. DBSCAN, özellik uzayında birbirine yakın bir şekilde paketlenmiş veri noktalarını gruplamada ve rastgele şekillerdeki kümeleri etkili bir şekilde tanımlamada başarılıdır. Önemli bir gücü, düşük yoğunluklu bölgelerdeki izole noktaları aykırı değer veya gürültü olarak işaretleme yeteneğidir, bu da onu gerçek dünya veri kümeleri için sağlam kılar. Küme sayısının önceden belirlenmesini gerektiren algoritmaların aksine, DBSCAN kümeleri veri yoğunluğuna göre belirleyerek yapay zeka (AI) dahilindeki çeşitli veri keşif görevlerinde esneklik sunar.

DBSCAN Nasıl Çalışır?

DBSCAN, yoğunluk erişilebilirliği kavramına dayalı olarak kümeleri tanımlar. Kümeleri düşük yoğunluklu alanlarla ayrılmış yüksek yoğunluklu alanlar olarak görür. Algoritmanın davranışı temel olarak iki parametre tarafından kontrol edilir:

  1. Epsilon (eps): Bu parametre, birinin diğerinin komşuluğunda kabul edilmesi için iki veri noktası arasındaki maksimum mesafeyi tanımlar. Esasen her noktanın etrafında bir yarıçap oluşturur.
  2. Minimum Noktalar (minPts): Bu parametre, bir noktanın 'çekirdek nokta' olarak sınıflandırılması için o noktanın eps-komşuluğunda (noktanın kendisi dahil) gereken minimum veri noktası sayısını belirtir.

Bu parametrelere dayanarak, veri noktaları üç türe ayrılır:

  • Çekirdek Puanlar: Bir nokta, en az aşağıdaki özelliklere sahipse çekirdek noktadır minPts içindeki komşuları eps yarıçap. Bu noktalar tipik olarak bir kümenin iç kısmında yer alır.
  • Sınır Noktaları: Bir nokta, bir çekirdek noktadan ulaşılabiliyorsa bir sınır noktasıdır (yani eps bir çekirdek noktasının yarıçapı) ancak minPts kendisine komşudur. Sınır noktaları kümelerin kenarında yer alır.
  • Gürültü Noktaları (Aykırı Değerler): Ne bir çekirdek noktası ne de bir sınır noktası olan bir nokta gürültü olarak kabul edilir. Bu noktalar tipik olarak düşük yoğunluklu bölgelerde izole edilmiştir.

Algoritma, rastgele, ziyaret edilmemiş bir veri noktası seçerek başlar. Noktanın çekirdek nokta olup olmadığını kontrol etmek için eps-komşuluk. Eğer bu bir çekirdek noktasıysa, yeni bir küme oluşturulur ve algoritma yoğunluğa erişilebilen tüm noktaları (komşuluktaki çekirdek ve sınır noktaları) bu kümeye özyinelemeli olarak ekler. Seçilen nokta bir gürültü noktasıysa, geçici olarak bu şekilde işaretlenir ve algoritma bir sonraki ziyaret edilmemiş noktaya geçer. Bu işlem, tüm noktalar ziyaret edilip bir kümeye atanana veya gürültü olarak işaretlenene kadar devam eder. Orijinal metodolojiyi daha derinlemesine incelemek için araştırma makalesine başvurabilirsiniz: "Gürültülü Büyük Mekânsal Veri Tabanlarında Kümeleri Keşfetmek için Yoğunluk Tabanlı Bir Algoritma".

Temel Avantajlar ve Dezavantajlar

DBSCAN çeşitli avantajlar sunar:

  • Keyfi Şekilleri İşler: K-means gibi algoritmaların aksine, DBSCAN küresel olmayan kümeleri bulabilir.
  • Küme Sayısını Önceden Tanımlamaya Gerek Yok: Küme sayısı algoritma tarafından yoğunluğa göre belirlenir.
  • Aykırı Değerlere Karşı Dayanıklıdır: Gürültü noktalarını tanımlamak ve işlemek için yerleşik bir mekanizmaya sahiptir.

Bununla birlikte, sınırlamaları da vardır:

  • Parametre Hassasiyeti: Kümeleme sonuçlarının kalitesi büyük ölçüde aşağıdakilerin seçimine bağlıdır eps ve minPts. Optimum parametreleri bulmak zor olabilir. Gibi araçlar scikit-learn teklif uygulamaları ayarlanabilen.
  • Değişken Yoğunluklarda Zorluk: Kümelerin önemli ölçüde farklı yoğunluklara sahip olduğu veri kümeleri ile mücadele eder, çünkü tek bir eps-minPts kombinasyonu tüm kümeler için iyi çalışmayabilir.
  • Yüksek Boyutlu Veriler: Performans, yoğunluk kavramının daha az anlamlı hale geldiği"boyutluluk laneti" nedeniyle yüksek boyutlu uzaylarda düşebilir.

DBSCAN ve Diğer Kümeleme Yöntemleri

DBSCAN genellikle diğer kümeleme algoritmalarıyla, özellikle de K-ortalamalar kümelemesiyle karşılaştırılır. Temel farklılıklar şunlardır:

  • Küme Şekli: K-ortalamalar kümelerin küresel ve eşit büyüklükte olduğunu varsayarken, DBSCAN keyfi şekilli kümeler bulabilir.
  • Küme Sayısı: K-ortalamalar kullanıcının küme sayısını belirtmesini gerektirir (k) önceden belirlerken, DBSCAN bunu otomatik olarak belirler.
  • Aykırı Değerlerin Ele Alınması: K-ortalamalar her noktayı bir kümeye atar, bu da onu aykırı değerlere karşı hassas hale getirir. DBSCAN aykırı değerleri açıkça gürültü olarak tanımlar ve izole eder.
  • Hesaplama Karmaşıklığı: K-means, özellikle büyük veri kümelerinde genellikle DBSCAN'den daha hızlıdır, ancak DBSCAN'in karmaşıklığı parametre seçimlerine ve KD ağaçları gibi veri yapısı optimizasyonlarına bağlı olarak değişebilir.

Gerçek Dünya Uygulamaları

DBSCAN'in yoğun grupları bulma ve aykırı değerleri izole etme yeteneği, onu çeşitli uygulamalar için uygun hale getirir:

  • Anomali Tespiti: Normal davranıştan sapan olağandışı modellerin belirlenmesi. Örneğin, yoğun meşru harcama kümelerine kıyasla genellikle izole noktalar olarak görünen hileli kredi kartı işlemlerini tespit etmek veya siber güvenlik için ağ trafiği verilerindeki izinsiz girişleri belirlemek. Anomali tespiti için Vision AI'daki ilgili kavramları keşfedin.
  • Mekânsal Veri Analizi: Coğrafi veya mekansal verilerin analiz edilmesi. Örneğin, pazar segmentlerini belirlemek için müşteri konumlarını gruplamak, bir şehirdeki suç noktalarını analiz etmek(akıllı şehirlerde yapayzeka) veya arazi kullanımı sınıflandırması veya çevresel izleme için uydu görüntüsü analiz indeki kalıpları belirlemek.
  • Biyolojik Veri Analizi: Gen ifadesi verilerinin kümelenmesi veya protein veri tabanlarındaki yapıların tanımlanması.
  • Öneri Sistemleri: Seyrek etkileşim verilerine dayalı olarak benzer tercihlere sahip kullanıcıları gruplandırma(öneri sistemine genel bakış).

DBSCAN ve Ultralytics

Bu Ultralytics ekosistemi öncelikle aşağıdaki gibi denetimli öğrenme modellerine odaklanır Ultralytics YOLONesne algılama, görüntü sınıflandırma ve görüntü segmentasyonu gibi görevler için. DBSCAN, denetimsiz bir yöntem olmakla birlikte, aşağıdaki gibi modellerin temel eğitim döngülerine doğrudan entegre edilmemiştir YOLOv8 veya YOLO11ilkeleri, bilgisayarla görme (CV) ve veri analizinin daha geniş bağlamıyla ilgilidir. Veri yoğunluğunu ve dağılımını anlamak, eğitim için veri kümelerini hazırlarken ve analiz ederken veya model çıktılarını sonradan işlerken, örneğin çıkarımdan sonra algılanan nesneleri uzamsal yakınlıklarına göre kümelerken çok önemlidir. Ultralytics HUB gibi platformlar, DBSCAN gibi kümeleme algoritmalarının uygulanabileceği keşifsel veri analizi tekniklerini tamamlayabilecek veri kümesi yönetimi ve görselleştirme araçları sağlar.

Tümünü okuyun