Glossar

Entscheidungsbaum

Entdecke die Leistungsfähigkeit von Entscheidungsbäumen beim maschinellen Lernen für Klassifizierung, Regression und reale Anwendungen wie Gesundheitswesen und Finanzen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Ein Entscheidungsbaum ist ein vielseitiges und interpretierbares Modell, das im Maschinellen Lernen (ML) sowohl für Klassifizierungs- als auch für Regressionsaufgaben verwendet wird. Er funktioniert wie ein Flussdiagramm, bei dem jeder interne Knoten einen Test auf ein Attribut (Merkmal) darstellt, jeder Zweig das Ergebnis des Tests und jeder Blattknoten eine Klassenbezeichnung (bei der Klassifizierung) oder einen kontinuierlichen Wert (bei der Regression). Diese Struktur macht es einfach zu visualisieren und zu verstehen, wie das Modell zu einer Vorhersage kommt und ahmt damit den menschlichen Entscheidungsprozess nach.

Wie Entscheidungsbäume funktionieren

Entscheidungsbäume lernen aus Daten, indem sie ein Modell erstellen, das den Wert einer Zielvariablen auf der Grundlage mehrerer Eingangsmerkmale vorhersagt. Es handelt sich um eine Form des überwachten Lernens, d.h. es werden markierte Trainingsdaten benötigt. Der Baum wird durch rekursives Aufteilen der Daten auf der Grundlage der Merkmale erstellt, die die Zielvariable am besten trennen. Gängige Algorithmen wie CART (Classification and Regression Trees) und ID3 verwenden Kriterien wie die Gini-Verunreinigung oder den Informationsgewinn, um die optimale Aufteilung an jedem Knoten zu bestimmen. Der Prozess wird solange fortgesetzt, bis ein Stoppkriterium erfüllt ist, z. B. das Erreichen einer maximalen Tiefe oder das Vorhandensein von Knoten mit Proben aus nur einer Klasse.

Typen und Variationen

Die beiden Haupttypen sind Klassifikationsbäume (die diskrete Klassenbezeichnungen vorhersagen) und Regressionsbäume (die kontinuierliche numerische Werte vorhersagen). Einzelne Entscheidungsbäume sind zwar nützlich, können aber manchmal anfällig für Fehler oder Instabilität sein. Deshalb werden bei Ensemble-Methoden wie Random Forest mehrere Entscheidungsbäume kombiniert, um die Vorhersageleistung und die Robustheit gegen Überanpassung zu verbessern.

Vorteile und Nachteile

Entscheidungsbäume bieten mehrere Vorteile:

  • Interpretierbarkeit: Die Struktur der Flussdiagramme ist leicht zu visualisieren und zu erklären.
  • Minimale Datenvorbereitung: Sie erfordern im Vergleich zu anderen Techniken oft weniger Datenvorbereitung und können sowohl numerische als auch kategoriale Daten verarbeiten.
  • Merkmalsbedeutung: Sie führen implizit eine Merkmalsauswahl durch und geben an, welche Merkmale im Entscheidungsprozess am einflussreichsten sind.

Sie haben aber auch Nachteile:

  • Überanpassung: Bäume können zu komplex werden und sich zu sehr an die Trainingsdaten anpassen, so dass sie nicht mehr gut auf neue Daten verallgemeinert werden können. Techniken wie Pruning werden eingesetzt, um den Baum zu vereinfachen und dies zu verhindern.
  • Instabilität: Kleine Abweichungen in den Daten können zu deutlich unterschiedlichen Baumstrukturen führen.
  • Verzerrung: Bäume können verzerrt werden, wenn einige Klassen im Datensatz dominant sind.

Anwendungen in der realen Welt

Entscheidungsbäume werden in verschiedenen Bereichen eingesetzt:

  • Medizinische Diagnosen: Unterstützung von Ärzten bei der Vorhersage von Krankheiten auf der Grundlage von Patientensymptomen und der Krankengeschichte, um klare Entscheidungen zu treffen. So können sie z. B. helfen, Risikofaktoren für bestimmte Krankheiten auf der Grundlage klinischer Daten zu bestimmen(Anwendungsbeispiel im Gesundheitswesen). Dies steht im Einklang mit den breiteren Anwendungen von KI im Gesundheitswesen.
  • Finanzanalyse: Wird bei der Kreditwürdigkeitsprüfung verwendet, um das Risiko eines Kreditantrags auf der Grundlage der Angaben des Antragstellers zu bewerten oder um die Entwicklung der Aktienmärkte vorherzusagen.
  • Vorhersage der Kundenabwanderung: Unternehmen nutzen Entscheidungsbäume, um Kunden zu identifizieren, die aufgrund ihres Nutzungsverhaltens, ihrer demografischen Daten und ihrer Interaktionshistorie wahrscheinlich abwandern werden, und können so proaktive Kundenbindungsstrategien entwickeln(siehe Beispiele auf Plattformen wie Kaggle).

Vergleich mit anderen Algorithmen

  • Random Forests: Random Forests werden aus Entscheidungsbäumen gebildet und bieten eine höhere Genauigkeit und eine bessere Generalisierung als ein einzelner Baum.
  • Support Vector Machines (SVM): SVMs zielen darauf ab, die optimale Hyperebene zu finden, die die Klassen trennt. Sie schneiden in hochdimensionalen Räumen oft gut ab, haben aber nicht die direkte Interpretierbarkeit von Entscheidungsbäumen.
  • Neuronale Netze (NN): Neuronale Netze, insbesondere Deep Networks, die in Modellen wie Ultralytics YOLO für Computer Vision (CV) verwendet werden, können hochkomplexe, nicht-lineare Beziehungen modellieren, sind aber in der Regel weniger interpretierbar ("Black Boxes") als Entscheidungsbäume.

Entscheidungsbäume sind aufgrund ihrer Einfachheit, ihrer Interpretierbarkeit und ihrer Nützlichkeit als Bausteine für komplexere Modelle nach wie vor ein grundlegender Algorithmus im ML. Sie sind in beliebten Bibliotheken wie Scikit-learn weit verbreitet.

Alles lesen