Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

K-Means-Clustering

Entdecken Sie K-Means-Clustering für unüberwachtes Lernen. Erfahren Sie, wie dieser Algorithmus Daten partitioniert, KI-Anwendungen verbessert und Modelle wie Ultralytics mit Informationen versorgt.

K-Means-Clustering ist ein grundlegender und weit verbreiteter Algorithmus im Bereich des unüberwachten Lernens, der entwickelt wurde, um versteckte Strukturen in unbeschrifteten Daten aufzudecken. Sein primäres Ziel ist es, einen Datensatz in verschiedene Untergruppen, sogenannte Cluster, zu unterteilen, sodass Datenpunkte innerhalb derselben Gruppe so ähnlich wie möglich sind, während diejenigen in verschiedenen Gruppen sich unterscheiden. Als Eckpfeiler des Data Mining und der explorativen Analyse ermöglicht K-Means Datenwissenschaftlern, komplexe Informationen automatisch in überschaubare Kategorien zu organisieren, ohne dass vordefinierte Labels oder menschliche Aufsicht erforderlich sind.

Wie der Algorithmus funktioniert

Der Betrieb von K-Means ist iterativ und stützt sich auf Distanzmetriken, um die optimale Gruppierung der Trainingsdaten zu bestimmen. Der Algorithmus organisiert Elemente in K-Clustern, wobei jedes Element zu dem Cluster mit dem nächstgelegenen Mittelwert oder Zentroid gehört. Dieser Prozess minimiert die Varianz innerhalb jeder Gruppe. Der Arbeitsablauf folgt im Allgemeinen diesen Schritten:

  1. Initialisierung: Der Algorithmus wählt K Anfangspunkte als Zentren aus. Diese können zufällig oder mithilfe optimierter Methoden wie k-means++ ausgewählt werden, um die Konvergenz zu beschleunigen.
  2. Zuordnung: Jeder Datenpunkt im Datensatz wird dem nächstgelegenen Zentroid zugeordnet, basierend auf einer bestimmten Distanzmetrik, am häufigsten der euklidischen Distanz.
  3. Update: Die Schwerpunkte werden neu berechnet, indem der Durchschnitt (Mittelwert) aller Datenpunkte genommen wird, die diesem Cluster zugeordnet sind .
  4. Iteration: Die Schritte 2 und 3 werden wiederholt, bis sich die Zentren nicht mehr signifikant bewegen oder eine maximale Anzahl von Iterationen erreicht ist.

Die Bestimmung der richtigen Anzahl von Clustern (K) ist ein entscheidender Aspekt bei der Verwendung dieses Algorithmus. Praktiker verwenden häufig Techniken wie die Elbow-Methode oder analysieren den Silhouette-Score, um zu bewerten, wie gut die resultierenden Cluster voneinander getrennt sind.

Real-World-Anwendungen in AI

K-Means Clustering ist äußerst vielseitig und findet in verschiedenen Branchen zur Vereinfachung und Datenvorverarbeitung

  • Bildkomprimierung und Farbquantisierung: In der Computer Vision (CV) hilft K-Means dabei, die Dateigröße von Bildern durch Clustering der Pixelfarben zu reduzieren. Durch die Gruppierung Tausender Farben in einen kleineren Satz dominanter Farben führt der Algorithmus effektiv eine Dimensionsreduktion durch, während die visuelle Struktur des Bildes erhalten bleibt. Diese Technik wird häufig vor dem Training fortgeschrittener Objekterkennungsmodelle verwendet, um die Eingabedaten zu normalisieren.
  • Kundensegmentierung: Unternehmen nutzen Clustering, um Kunden anhand ihrer Kaufhistorie, demografischer Daten oder ihres Verhaltens auf der Website zu gruppieren. Dies ermöglicht gezielte Marketingstrategien, eine Schlüsselkomponente von KI-Lösungen im Einzelhandel. Durch die Identifizierung von hochwertigen Käufern oder Abwanderungsrisiken können Unternehmen ihre Botschaften effektiv anpassen.
  • Anomalieerkennung: Durch das Erlernen der Struktur „normaler” Datencluster können Systeme Ausreißer identifizieren, die weit vom Schwerpunkt entfernt sind. Dies ist wertvoll für die Betrugserkennung im Finanzwesen und die Anomalieerkennung in der Netzwerksicherheit, da es dabei hilft, verdächtige Aktivitäten zu markieren, die von den Standardmustern abweichen.
  • Anchor-Box-Generierung: In der Vergangenheit verwendeten Objektdetektoren wie ältere YOLO K-Means, um optimale Anchor-Boxen aus Trainingsdatensätzen zu berechnen . Während moderne Modelle wie YOLO26 fortschrittliche anchor-freie Methoden verwenden, bleibt das Verständnis von K-Means für die Entwicklung von Detektionsarchitekturen weiterhin relevant.

Beispiel für die Umsetzung

Während Deep-Learning-Frameworks wie die Ultralytics komplexe Trainingspipelines verarbeiten , wird K-Means häufig zur Analyse von Datensatzstatistiken verwendet. Der folgende Python zeigt, wie man 2D-Koordinaten – die Objektzentren simulieren – mit der beliebten Scikit-learn-Bibliothek

import numpy as np
from sklearn.cluster import KMeans

# Simulated coordinates of detected objects (e.g., from YOLO26 inference)
points = np.array([[10, 10], [12, 11], [100, 100], [102, 101], [10, 12], [101, 102]])

# Initialize K-Means to find 2 distinct groups (clusters)
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto").fit(points)

# Output the cluster labels (0 or 1) for each point
print(f"Cluster Labels: {kmeans.labels_}")
# Output: [1 1 0 0 1 0] -> Points near (10,10) are Cluster 1, near (100,100) are Cluster 0

Vergleich mit verwandten Algorithmen

Es ist wichtig, K-Means von anderen Algorithmen mit ähnlichen Namen oder Funktionen zu unterscheiden, um sicherzustellen, dass das richtige Werkzeug für ein Projekt ausgewählt wird.

  • K-Means vs. K-Nearest Neighbors (KNN): Diese werden aufgrund des „K” in ihren Namen oft verwechselt. K-Means ist ein unüberwachter Algorithmus, der zum Clustering unbeschrifteter Daten verwendet wird. Im Gegensatz dazu ist K-Nearest Neighbors (KNN) ein überwachter Lernalgorithmus, der für die Bildklassifizierung und Regression verwendet wird und sich auf beschriftete Daten stützt, um Vorhersagen auf der Grundlage der Mehrheitsklasse der Nachbarn zu treffen.
  • K-Means vs. DBSCAN: Beide Verfahren clustern Daten, jedoch geht K-Means davon aus, dass Cluster kugelförmig sind, und erfordert die vorherige Festlegung der Anzahl der Cluster. DBSCAN gruppiert Daten anhand ihrer Dichte, kann Cluster beliebiger Form finden und geht besser mit Rauschen um. Dadurch eignet sich DBSCAN besser für komplexe räumliche Daten in Datensätzen mit unregelmäßigen Strukturen, bei denen die Anzahl der Cluster unbekannt ist.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten