Glossar

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Entdecken Sie DBSCAN: einen robusten Clustering-Algorithmus zur Erkennung von Mustern, zur Behandlung von Störungen und zur Analyse komplexer Datensätze beim maschinellen Lernen.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) ist ein beliebter unüberwachter Lernalgorithmus, der dazu dient, dicht gepackte Datenpunkte zu gruppieren und Punkte, die allein in Regionen mit geringer Dichte liegen, als Ausreißer zu kennzeichnen. Im Gegensatz zu anderen Clustering-Methoden muss bei DBSCAN die Anzahl der Cluster nicht im Voraus festgelegt werden. Seine Fähigkeit, beliebig geformte Cluster zu finden, und seine Robustheit gegenüber Rauschen machen ihn zu einem leistungsstarken Werkzeug für Data Mining und Datenanalyse. Der Algorithmus wurde erstmals 1996 in einer Arbeit von Martin Ester, Hans-Peter Kriegel, Jörg Sander und Xiaowei Xu vorgestellt, die zu einem grundlegenden Werk in diesem Bereich wurde.

Wie DBSCAN funktioniert

DBSCAN definiert Cluster auf der Grundlage der Dichte von Datenpunkten in einem bestimmten Raum. Es arbeitet mit zwei Schlüsselparametern:

  • Epsilon (ε oder eps): Dieser Parameter definiert den Radius einer Nachbarschaft um einen Datenpunkt. Alle Punkte innerhalb dieses Abstands werden als Nachbarn betrachtet.
  • Minimale Punkte (MinPts): Dies ist die Mindestanzahl von Datenpunkten (einschließlich des Punktes selbst), die zur Bildung einer dichten Region oder eines Clusters erforderlich ist.

Auf der Grundlage dieser Parameter kategorisiert DBSCAN jeden Datenpunkt in einen von drei Typen:

  1. Kernpunkte: Ein Punkt ist ein Kernpunkt, wenn er mindestens Folgendes aufweist MinPts innerhalb seiner eps Nachbarschaft. Diese Punkte sind das Innere eines Clusters.
  2. Grenzübergangsstellen: Ein Punkt ist ein Grenzpunkt, wenn er sich innerhalb der eps Nachbarschaft eines Kernpunktes hat, aber nicht genügend Nachbarn hat, um selbst ein Kernpunkt zu sein. Diese Punkte bilden den Rand eines Clusters.
  3. Rauschpunkte (Ausreißer): Ein Punkt wird als Rauschen bezeichnet, wenn er weder ein Kernpunkt noch ein Grenzpunkt ist. Dies sind die Ausreißer, die zu keinem Cluster gehören.

Der Algorithmus beginnt mit einem beliebigen Punkt und sucht dessen Nachbarschaft ab. Wenn es sich um einen Kernpunkt handelt, wird ein neuer Cluster erstellt. Der Algorithmus erweitert dann iterativ den Cluster, indem er alle direkt erreichbaren Nachbarn hinzufügt, ein Prozess, der fortgesetzt wird, bis keine weiteren Punkte mehr zu einem Cluster hinzugefügt werden können. Eine visuelle Implementierung finden Sie in der scikit-learn-Dokumentation.

Real-World AI/ML-Anwendungen

Die Fähigkeit von DBSCAN, Rauschen zu erkennen und nicht-lineare Cluster zu entdecken, macht es in verschiedenen Bereichen sehr wertvoll:

  • Geodaten-Analyse: Stadtplaner und Geographen nutzen DBSCAN, um räumliche Daten zu analysieren. Indem sie beispielsweise die GPS-Koordinaten von Verkehrsunfällen clustern, können sie Unfallschwerpunkte ermitteln. In ähnlicher Weise kann DBSCAN verwendet werden, um Cluster von gemeldeten Krankheitsfällen zu finden, was Epidemiologen hilft, Ausbrüche zu verfolgen. Organisationen wie die Geospatial Information Authority of Japan verwenden ähnliche dichtebasierte Methoden für die Kartierung.
  • Erkennung von Anomalien im Finanzwesen: Im Finanzsektor kann DBSCAN verwendet werden, um betrügerische Transaktionen zu erkennen. Durch das Clustern typischer Ausgabemuster eines Kunden kann jede Transaktion, die außerhalb dieser Cluster liegt (d. h. als Rauschen gekennzeichnet ist), für weitere Untersuchungen markiert werden. Dieser Ansatz ist eine Schlüsselkomponente moderner Betrugserkennungssysteme.

DBSCAN und Ultralytik

Das Ultralytics-Ökosystem konzentriert sich in erster Linie auf überwachte Lernmodelle, wie Ultralytics YOLO für Aufgaben wie Objekterkennung, Bildklassifizierung und Instanzsegmentierung. Obwohl es sich bei DBSCAN um eine nicht überwachte Methode handelt, sind ihre Prinzipien im breiteren Kontext der Computer Vision (CV) relevant.

Nach der Objekterkennung mit einem Modell wie YOLO11 auf einem Video einer belebten Straße könnte DBSCAN beispielsweise auf die Mittelkoordinaten der erkannten Bounding Boxes angewendet werden. Durch diesen Nachbearbeitungsschritt können einzelne Fußgängererkennungen zu bestimmten Gruppen zusammengefasst werden, was zu einem besseren Verständnis der Szene führt. Das Verständnis der Datenverteilung ist auch bei der Vorbereitung von Datensätzen für das Training entscheidend. Eine explorative Datenanalyse mit DBSCAN kann Muster oder Anomalien im Datensatz aufdecken, die mit Plattformen wie Ultralytics HUB verwaltet und visualisiert werden können.

Unterscheidung von verwandten Begriffen

  • K-Means Clustering: Der wichtigste Unterschied besteht darin, dass bei K-Means der Benutzer die Anzahl der Cluster angeben muss (k), während DBSCAN die Anzahl der Cluster automatisch bestimmt. K-Means hat auch Probleme mit nicht kugelförmigen Clustern und ist empfindlich gegenüber Ausreißern, da es jeden Punkt in einen Cluster zwingt. DBSCAN ist hervorragend in der Lage, willkürlich geformte Cluster zu finden und Ausreißer effektiv als Rauschen zu isolieren.
  • Hierarchisches Clustering: Bei dieser Methode wird ein Baum von Clustern, ein so genanntes Dendrogramm, erstellt. Sie ist zwar nützlich für die Visualisierung verschachtelter Clusterstrukturen, kann aber bei großen Datensätzen im Vergleich zu DBSCAN rechenintensiver sein. Die Wahl zwischen den beiden Verfahren hängt oft von der Größe des Datensatzes und dem gewünschten Ergebnis ab, wie in den Anleitungen zur Auswahl des richtigen Clustering-Algorithmus beschrieben.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert