Sözlük

DBSCAN (Gürültülü Uygulamaların Yoğunluk Tabanlı Mekansal Kümelenmesi)

DBSCAN'ı keşfedin: örüntüleri tanımlamak, gürültüyle başa çıkmak ve makine öğreniminde karmaşık veri kümelerini analiz etmek için sağlam bir kümeleme algoritması.

DBSCAN (Gürültülü Uygulamaların Yoğunluk Tabanlı Mekansal Kümelenmesi), birbirine yakın veri noktalarını bir araya getirmek için kullanılan ve düşük yoğunluklu bölgelerde tek başına bulunan noktaları aykırı değer olarak işaretleyen popüler bir denetimsiz öğrenme algoritmasıdır. Diğer kümeleme yöntemlerinin aksine, DBSCAN küme sayısının önceden belirlenmesini gerektirmez. Keyfi olarak şekillendirilmiş kümeleri bulma yeteneği ve gürültüye karşı sağlamlığı, onu veri madenciliği ve veri analitiği için güçlü bir araç haline getirmektedir. Algoritma ilk olarak Martin Ester, Hans-Peter Kriegel, Jörg Sander ve Xiaowei Xu tarafından 1996 yılında yayınlanan ve bu alanda temel bir çalışma haline gelen bir makalede tanıtılmıştır.

DBSCAN Nasıl Çalışır?

DBSCAN, belirli bir alandaki veri noktalarının yoğunluğuna dayalı olarak kümeleri tanımlar. İki anahtar parametre üzerinde çalışır:

  • Epsilon (ε veya eps): Bu parametre, bir veri noktasının etrafındaki komşuluğun yarıçapını tanımlar. Bu mesafe içindeki tüm noktalar komşu olarak kabul edilir.
  • Minimum Noktalar (MinPts): Bu, yoğun bir bölge veya küme oluşturmak için gereken minimum veri noktası sayısıdır (noktanın kendisi dahil).

Bu parametrelere dayanarak, DBSCAN her veri noktasını üç türden birine sınıflandırır:

  1. Çekirdek Puanlar: Bir nokta, en az aşağıdaki özelliklere sahipse çekirdek noktadır MinPts kendi içinde eps komşuluk. Bu noktalar bir kümenin iç kısmıdır.
  2. Sınır Noktaları: Bir nokta, aşağıdaki sınırlar içindeyse bir sınır noktasıdır eps Bir çekirdek noktanın komşuluğu ancak kendisi bir çekirdek nokta olmak için yeterli komşuya sahip değildir. Bu noktalar bir kümenin kenarını oluşturur.
  3. Gürültü Noktaları (Aykırı Değerler): Bir nokta ne bir çekirdek noktası ne de bir sınır noktası ise gürültü olarak kabul edilir. Bunlar herhangi bir kümeye ait olmayan aykırı değerlerdir.

Algoritma rastgele bir nokta ile başlar ve komşuluğunu alır. Eğer bu bir çekirdek noktasıysa, yeni bir küme oluşturulur. Algoritma daha sonra doğrudan ulaşılabilen tüm komşuları ekleyerek kümeyi yinelemeli olarak genişletir; bu işlem herhangi bir kümeye daha fazla nokta eklenemeyene kadar devam eder. Scikit-learn dokümantasyonunda görsel bir uygulama görebilirsiniz.

Gerçek Dünya AI/ML Uygulamaları

DBSCAN'in gürültüyü belirleme ve doğrusal olmayan kümeleri keşfetme yeteneği, onu çeşitli alanlarda oldukça değerli kılmaktadır:

  • Jeo-uzamsal Analiz: Şehir planlamacıları ve coğrafyacılar mekansal verileri analiz etmek için DBSCAN kullanırlar. Örneğin, trafik olaylarının GPS koordinatlarını kümeleyerek kaza noktalarını belirleyebilirler. Benzer şekilde, bildirilen hastalık vakalarının kümelerini bulmak için kullanılabilir ve epidemiyologların salgınları izlemesine yardımcı olur. Japonya Jeo-uzamsal Bilgi Kurumu gibi kuruluşlar haritalama için benzer yoğunluk tabanlı yöntemler kullanmaktadır.
  • Finans Alanında Anomali Tespiti: Finans sektöründe, DBSCAN hileli işlemleri tespit etmek için kullanılabilir. Bir müşterinin tipik harcama modellerini kümeleyerek, bu kümelerin dışında kalan (yani gürültü olarak etiketlenen) herhangi bir işlem daha fazla araştırma için işaretlenebilir. Bu yaklaşım, modern dolandırıcılık tespit sistemlerinin önemli bir bileşenidir.

DBSCAN ve Ultralytics

Ultralytics ekosistemi öncelikle nesne algılama, görüntü sınıflandırma ve örnek segmentasyonu gibi görevler için Ultralytics YOLO gibi denetimli öğrenme modellerine odaklanır. DBSCAN denetimsiz bir yöntem olsa da, ilkeleri daha geniş bilgisayarla görme (CV) bağlamıyla ilgilidir.

Örneğin, işlek bir caddenin videosunda YOLO11 gibi bir modelle nesne tespiti yaptıktan sonra, tespit edilen sınırlayıcı kutuların merkez koordinatlarına DBSCAN uygulanabilir. Bu işlem sonrası adım, bireysel yaya tespitlerini farklı kalabalıklar halinde gruplandırarak daha yüksek düzeyde bir sahne anlayışı sağlayabilir. Veri dağılımını anlamak, eğitim için veri kümeleri hazırlarken de çok önemlidir. DBSCAN kullanılarak yapılan keşifsel veri analizi, Ultralytics HUB gibi platformlar kullanılarak yönetilebilen ve görselleştirilebilen veri kümesindeki kalıpları veya anormallikleri ortaya çıkarabilir.

İlgili Terimlerden Ayırt Etme

  • K-Means Kümeleme: En önemli fark, K-Means'in kullanıcının küme sayısını belirtmesini gerektirmesidir (k) önceden belirlerken, DBSCAN küme sayısını otomatik olarak belirler. K-Means ayrıca küresel olmayan kümelerle de mücadele eder ve her noktayı bir kümeye zorladığı için aykırı değerlere karşı hassastır. DBSCAN keyfi olarak şekillendirilmiş kümeleri bulmada üstündür ve aykırı değerleri gürültü olarak etkili bir şekilde izole eder.
  • Hiyerarşik Kümeleme: Bu yöntem, dendrogram olarak bilinen bir küme ağacı oluşturur. İç içe geçmiş küme yapılarını görselleştirmek için yararlı olsa da, büyük veri kümelerinde DBSCAN'a kıyasla hesaplama açısından daha pahalı olabilir. Doğru kümeleme algoritmasını seçme kılavuzlarında belirtildiği gibi, bunlar arasındaki seçim genellikle veri kümesi boyutuna ve istenen çıktıya bağlıdır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı