Sözlük

DBSCAN (Gürültülü Uygulamaların Yoğunluk Tabanlı Mekansal Kümelenmesi)

DBSCAN'ı keşfedin: makine öğreniminde örüntüleri tanımlamak, gürültüyle başa çıkmak ve karmaşık veri kümelerini analiz etmek için sağlam bir kümeleme algoritması.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

DBSCAN (Gürültülü Uygulamaların Yoğunluk Tabanlı Mekansal Kümelenmesi), makine öğrenimi (ML) ve veri madenciliğinde kullanılan popüler bir kümeleme algoritmasıdır. Bir tür denetimsiz öğrenme yöntemi olarak, birbirine yakın olan veri noktalarını bir araya getirir ve düşük yoğunluklu bölgelerde tek başına bulunan noktaları aykırı değer veya gürültü olarak işaretler. K-means gibi bölümleme yöntemlerinin aksine, DBSCAN rastgele şekillerdeki kümeleri keşfedebilir ve küme sayısının önceden belirlenmesini gerektirmez, bu da onu yapay zeka (AI) içindeki çeşitli veri keşif görevleri için çok yönlü hale getirir.

DBSCAN Nasıl Çalışır?

DBSCAN, yoğunluk erişilebilirliği kavramına dayalı olarak çalışır. Kümeleri, daha düşük yoğunluklu alanlarla ayrılmış yoğun veri noktaları bölgeleri olarak tanımlar. Algoritma iki temel parametreye dayanır: 'epsilon' (eps) ve 'minimum noktalar' (minPts). Epsilon, iki noktanın komşu olarak kabul edilmesi için aralarındaki maksimum mesafeyi tanımlar ve esasen her noktanın etrafında bir yarıçap belirler. MinPts, bir noktanın epsilon komşuluğunda (noktanın kendisi de dahil olmak üzere) 'çekirdek nokta' olarak sınıflandırılması için gereken minimum nokta sayısını belirtir.

Puanlar aşağıdaki gibi sınıflandırılır:

  • Çekirdek Noktalar: Epsilon yarıçapı içinde en az minPts komşusu olan noktalar. Bunlar bir kümenin iç kısmını oluşturur.
  • Sınır Noktaları: Bir çekirdek noktadan erişilebilen ancak minPts komşuları olmayan noktalar. Bir kümenin kenarında yer alırlar.
  • Gürültü Noktaları (Aykırı Değerler): Ne çekirdek ne de sınır noktası olan noktalar. Düşük yoğunluklu bölgelerde bulunurlar.

Algoritma rastgele bir nokta ile başlar ve epsilon komşuluğunu alır. Eğer bu bir çekirdek noktasıysa, yeni bir küme başlatılır. Algoritma daha sonra doğrudan erişilebilir tüm noktaları (komşular) ekleyerek ve komşuluklarını iteratif olarak keşfederek bu kümeyi genişletir. Bu süreç herhangi bir kümeye daha fazla nokta eklenemeyene kadar devam eder.

Temel Avantajlar

DBSCAN, diğer kümeleme algoritmalarına göre çeşitli avantajlar sunar:

  • Gürültüyü Etkili Bir Şekilde Ele Alır: Diğer birçok algoritmanın zorlandığı gürültü noktalarını açıkça tanımlar ve etiketler.
  • Keyfi Küme Şekilleri: Kümelerin dışbükey veya küresel olduğunu varsayan K-ortalamalar küm eleme gibi algoritmaların aksine, küresel olmayan kümeleri bulabilir.
  • Küme Sayısını Önceden Belirtmeye Gerek Yoktur: Küme sayısı, verilerin yoğunluk yapısına göre algoritma tarafından belirlenir.

Bununla birlikte, aşağıdaki seçeneklere duyarlı olabilir eps ve minPtsnedeniyle yüksek boyutlu verilerde performansı düşebilir.boyutsallık laneti".

Gerçek Dünya Uygulamaları

DBSCAN'in yoğun grupları bulma ve aykırı değerleri izole etme yeteneği onu çeşitli alanlarda değerli kılmaktadır:

  1. Anomali Tespiti: Finansta olağandışı işlemleri tanımlamak, veri güvenliğini artırmak için ağa izinsiz girişleri tespit etmek veya üretim kalite kontrolünde kusurlu ürünleri bulmak, genellikle üretim sistemlerinde bilgisayarla görmeyi tamamlar.
  2. Jeo-uzamsal Veri Analizi: Sıcak noktaları belirlemek için olayların (suçlar veya hastalık salgınları gibi) konumlarını bir harita üzerinde gruplamak, perakende planlaması için müşteri dağılımlarını analiz etmek veya uydu görüntü analizindeki kalıpları anlamak. Bu, akıllı şehirlerde yapay zeka için çözümler geliştirmeye yardımcı olur.

DBSCAN ve Ultralytics

Bu Ultralytics ekosistemi öncelikle aşağıdaki gibi denetimli öğrenme modellerine odaklanır Ultralytics YOLONesne algılama ve görüntü segmentasyonu gibi görevler için. DBSCAN, çekirdek YOLO eğitim döngüsünde doğrudan uygulanmasa da, yoğunluk analizinin altında yatan ilkeler konuyla ilgilidir. Mekansal dağılımı ve yoğunluğu anlamak, veri kümelerini analiz ederken veya algılama modellerinin çıktılarını yorumlarken (örneğin, algılanan nesneleri kümeleme) çok önemlidir. Ayrıca, Ultralytics HUB, DBSCAN gibi kümeleme tekniklerinin rol oynadığı daha geniş veri keşfi bağlamıyla uyumlu olarak veri kümelerini yönetmek ve analiz etmek için araçlar sunar.

Daha derin teknik ayrıntılar için scikit-learn DBSCAN belgeleri gibi kaynaklara veya orijinal araştırma makalesine bakın:"Gürültülü Büyük Mekansal Veritabanlarında Kümeleri Keşfetmek için Yoğunluk Tabanlı Bir Algoritma".

Tümünü okuyun