Glossar

K-Nächste Nachbarn (KNN)

Entdecke K-Nearest Neighbors (KNN), einen einfachen, aber leistungsstarken Algorithmus für maschinelles Lernen für Klassifizierungs- und Regressionsaufgaben. Lerne, wie er funktioniert!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

K-Nearest Neighbors (KNN) ist ein grundlegender Algorithmus des maschinellen Lernens, der sowohl für Klassifizierungs- als auch für Regressionsaufgaben verwendet wird. Er ist für seine Einfachheit und Intuitivität bekannt, was ihn zu einer beliebten Wahl für Anfänger im Bereich des maschinellen Lernens macht. Der Kerngedanke hinter KNN ist, dass Datenpunkte mit ähnlichen Attributen dazu neigen, zur selben Klasse zu gehören oder ähnliche Werte zu haben. Dieser Algorithmus macht Vorhersagen auf der Grundlage der Mehrheitsklasse oder des Durchschnittswerts der "K" nächstgelegenen Datenpunkte im Trainingsdatensatz.

Wie K-Nächste Nachbarn (KNN) funktionieren

Der KNN-Algorithmus arbeitet nach dem Prinzip der Nähe. Wenn ein neuer, ungesehener Datenpunkt auftaucht, berechnet er den Abstand zwischen diesem Punkt und allen Punkten im Trainingsdatensatz. Dann ermittelt er die "K" Trainingspunkte, die dem neuen Punkt am nächsten liegen. Bei der Klassifizierung wird der neue Punkt der Klasse zugeordnet, die unter seinen K nächsten Nachbarn am häufigsten vorkommt. Bei der Regression ist der vorhergesagte Wert der Durchschnitt (oder gewichtete Durchschnitt) der Werte der K nächsten Nachbarn. Die Wahl von "K" ist entscheidend und kann die Leistung des Modells erheblich beeinflussen. Ein kleineres "K" kann zu Rauschempfindlichkeit führen, während ein größeres "K" die Entscheidungsgrenzen glätten kann, aber möglicherweise Punkte aus anderen Klassen einschließt.

Entfernung Metriken

Das Konzept des "Nächstliegenden" in KNN basiert auf einer Abstandsmetrik. Zu den gängigen Abstandsmetriken gehören der euklidische Abstand, der Manhattan-Abstand und der Minkowski-Abstand. Jede Metrik hat ihre eigenen Eigenschaften und eignet sich für verschiedene Arten von Daten. Der euklidische Abstand wird zum Beispiel häufig für kontinuierliche numerische Daten verwendet, während der Manhattan-Abstand robuster gegenüber Ausreißern ist.

Relevanz und Anwendungen

KNN ist aufgrund seiner einfachen Implementierung und seiner Effektivität in verschiedenen Bereichen weit verbreitet. Es ist besonders nützlich, wenn wenig oder gar kein Vorwissen über die Datenverteilung vorhanden ist. KNN kann in Empfehlungssystemen eingesetzt werden, z. B. um Nutzern Produkte vorzuschlagen, die auf den Vorlieben ähnlicher Nutzer basieren. Du kannst mehr über Empfehlungssysteme im Kontext von KI und maschinellem Lernen erfahren.

Anwendungen in der realen Welt

Beispiel 1: Gesundheitswesen

Im Gesundheitswesen kann KNN eingesetzt werden, um anhand der Krankengeschichte ähnlicher Patienten vorherzusagen, ob ein Patient wahrscheinlich eine bestimmte Krankheit entwickeln wird. Durch die Analyse von Faktoren wie Alter, Blutdruck und Cholesterinspiegel kann KNN neue Patienten in Risikokategorien einteilen und so zu einer frühzeitigen Diagnose und personalisierten Behandlungsplänen beitragen. Erfahre mehr über KI im Gesundheitswesen.

Beispiel 2: Bilderkennung

KNN kann bei Bilderkennungsaufgaben eingesetzt werden, z. B. beim Erkennen von handgeschriebenen Ziffern oder beim Klassifizieren von Bildern von Objekten. Durch die Darstellung von Bildern als Merkmalsvektoren kann KNN neue Bilder auf der Grundlage ihrer Ähnlichkeit mit markierten Bildern in der Trainingsmenge klassifizieren. Diese Anwendung ist besonders in Bereichen wie der optischen Zeichenerkennung (OCR) und der automatischen Bildkennzeichnung von Bedeutung.

Verwandte Konzepte

K-Means Clustering

Obwohl sowohl KNN als auch K-Means den Parameter "K" verwenden, dienen sie unterschiedlichen Zwecken. K-Means ist ein unbeaufsichtigter Lernalgorithmus, der zum Clustern verwendet wird, wobei "K" die Anzahl der Cluster angibt. Im Gegensatz dazu ist KNN ein überwachter Lernalgorithmus, der für Klassifizierung und Regression verwendet wird, wobei "K" für die Anzahl der berücksichtigten Nachbarn steht. Erfahre mehr über K-Means Clustering.

Dimensionalitätsreduktion

Die Leistung von KNN kann durch hochdimensionale Daten beeinträchtigt werden, ein Phänomen, das als "Fluch der Dimensionalität" bekannt ist. Techniken wie die Hauptkomponentenanalyse (PCA) können eingesetzt werden, um die Anzahl der Merkmale zu reduzieren und gleichzeitig die wesentlichen Informationen zu erhalten, was die Effizienz und Genauigkeit von KNN verbessert.

Vorteile und Nachteile

Vorteile

  • Einfachheit: KNN ist einfach zu verstehen und umzusetzen.
  • Keine Trainingsphase: KNN hat keine explizite Trainingsphase, was es für dynamische Datensätze effizient macht.
  • Flexibilität: Sie kann sowohl für Klassifizierungs- als auch für Regressionsaufgaben verwendet werden.

Benachteiligungen

  • Berechnungsaufwand: KNN kann rechenintensiv sein, vor allem bei großen Datensätzen, da es die Berechnung von Abständen zu allen Trainingspunkten erfordert.
  • Empfindlichkeit gegenüber "K": Die Wahl von "K" kann die Leistung erheblich beeinflussen.
  • Der Fluch der Dimensionalität: Die Leistung nimmt mit hochdimensionalen Daten ab.

Schlussfolgerung

K-Nearest Neighbors ist ein vielseitiger und intuitiver Algorithmus, der in verschiedenen Anwendungen des maschinellen Lernens eingesetzt wird. Seine Fähigkeit, Vorhersagen auf der Grundlage der Ähnlichkeit von Datenpunkten zu treffen, macht ihn zu einem wertvollen Werkzeug für Klassifizierungs- und Regressionsaufgaben. Für eine optimale Leistung ist es jedoch wichtig, die Wahl von "K" und der Abstandsmetrik sorgfältig abzuwägen. Für alle, die sich für fortschrittliche Modelle des maschinellen Lernens und deren Einsatz interessieren, bietet Ultralytics innovative Lösungen wie die Ultralytics YOLO Modelle und die Ultralytics HUB Plattform.

Alles lesen