Glossar

Entscheidungsbaum

Entdecke die Leistungsfähigkeit von Entscheidungsbäumen beim maschinellen Lernen für Klassifizierung, Regression und reale Anwendungen wie Gesundheitswesen und Finanzen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Ein Entscheidungsbaum ist ein vielseitiger und weit verbreiteter Algorithmus des maschinellen Lernens (ML), der in die Kategorie des überwachten Lernens fällt. Er verwendet eine baumartige Struktur, um Entscheidungen und ihre möglichen Konsequenzen zu modellieren, ähnlich wie ein Flussdiagramm. Jeder interne Knoten steht für einen Test auf ein Attribut (oder Merkmal), jeder Zweig für das Ergebnis des Tests und jeder Blattknoten für eine Klassenbezeichnung (bei Klassifizierungsaufgaben) oder einen kontinuierlichen Wert (bei Regressionsaufgaben). Aufgrund ihrer intuitiven Struktur sind Entscheidungsbäume dafür bekannt, dass sie relativ leicht zu verstehen und zu interpretieren sind, was sie für erklärbare KI (XAI) wertvoll macht.

Wie Entscheidungsbäume funktionieren

Der Kerngedanke besteht darin, den Datensatz auf der Grundlage der Werte der Eingangsmerkmale in immer kleinere Teilmengen aufzuteilen und so eine Baumstruktur zu erstellen. Der Prozess beginnt mit dem Wurzelknoten, der den gesamten Datensatz repräsentiert. An jedem Knotenpunkt wählt der Algorithmus das beste Merkmal und den besten Schwellenwert aus, um die Daten so aufzuteilen, dass die Reinheit oder Homogenität der resultierenden Teilmengen in Bezug auf die Zielvariable erhöht wird. Gängige Kriterien zur Ermittlung der besten Aufteilung sind die Gini-Unreinheit und der Informationsgewinn (basierend auf der Entropie), die die Unordnung oder Zufälligkeit in einer Menge messen. Dieser Aufteilungsprozess wird rekursiv fortgesetzt, bis ein Stoppkriterium erfüllt ist, z. B. das Erreichen einer maximalen Tiefe, einer Mindestanzahl von Stichproben in einem Knoten oder das Erreichen von reinen Blattknoten (Knoten, die Stichproben aus nur einer Klasse enthalten). Um eine Vorhersage für einen neuen Datenpunkt zu treffen, wird der Baum auf der Grundlage der Ergebnisse der Merkmalstests von der Wurzel bis zu einem Blattknoten durchlaufen, und die Vorhersage ist die Mehrheitsklasse oder der Durchschnittswert in diesem Blatt. Eine sorgfältige Vorverarbeitung der Daten und die Entwicklung von Merkmalen können die Leistung eines Entscheidungsbaums erheblich beeinflussen.

Arten von Entscheidungsbäumen

Entscheidungsbäume können grob in zwei Haupttypen unterteilt werden:

  • Klassifizierungsbäume: Werden verwendet, wenn die Zielvariable kategorisch ist (z. B. die Vorhersage von "Spam" oder "kein Spam"). Die Blattknoten stehen für die Klassenbezeichnungen.
  • Regressionsbäume: Werden verwendet, wenn die Zielvariable kontinuierlich ist (z. B. bei der Vorhersage von Hauspreisen). Die Blattknoten stellen einen vorhergesagten numerischen Wert dar, oft den Durchschnitt der Zielwerte der Trainingsstichproben, die dieses Blatt erreichen.

Vorteile und Nachteile

Entscheidungsbäume bieten mehrere Vorteile:

  • Interpretierbarkeit: Ihre grafische Struktur macht sie einfach zu visualisieren und zu verstehen.
  • Minimale Datenaufbereitung: Im Vergleich zu anderen Algorithmen benötigen sie oft weniger Datenbereinigung, z. B. weniger Datennormalisierung.
  • Behandelt nicht-lineare Daten: Sie können nicht-lineare Beziehungen zwischen Merkmalen und der Zielvariablen erfassen.
  • Merkmalsbedeutung: Sie liefern ein Maß für die Wichtigkeit eines Merkmals, das darauf basiert, wie früh oder wie oft ein Merkmal zum Splitten verwendet wird.

Sie haben aber auch Nachteile:

  • Überanpassung: Entscheidungsbäume können leicht zu komplex werden und Rauschen in den Trainingsdaten einfangen, was zu einer schlechten Generalisierung auf ungesehenen Testdaten führt. Techniken wie das Beschneiden oder die Festlegung von Einschränkungen für das Baumwachstum helfen dabei, Overfitting zu vermeiden.
  • Instabilität: Kleine Abweichungen in den Daten können dazu führen, dass ein völlig anderer Baum erzeugt wird.
  • Verzerrung: Wenn der Datensatz unausgewogen ist, können die Bäume zu Merkmalen mit mehr Stufen oder dominanten Klassen tendieren.

Anwendungen in der realen Welt

Entscheidungsbäume werden in verschiedenen Bereichen eingesetzt:

  1. Medizinische Diagnosen: Unterstützung von Ärzten durch die Erstellung von Modellen, die anhand von Patientensymptomen und Testergebnissen Diagnosen vorschlagen. Zum Beispiel könnte ein Baum die Diagnose unterstützen, indem er nacheinander Fragen zu den Symptomen stellt(KI im Gesundheitswesen).
  2. Vorhersage der Kundenabwanderung: Unternehmen nutzen Entscheidungsbäume, um anhand von Nutzungsmustern, demografischen Daten und der Interaktionshistorie die Kunden zu identifizieren, die ihren Service wahrscheinlich nicht mehr nutzen werden, und können so gezielte Maßnahmen zur Kundenbindung ergreifen(Vorhersage der Kundenabwanderung).
  3. Finanzielle Risikobewertung: Bewertung der Kreditwürdigkeit durch Analyse von Faktoren wie Einkommen, Schulden und Kredithistorie(Computer Vision Models in Finance).
  4. Qualitätskontrolle in der Fertigung: Identifizierung potenzieller Fehler in Produkten auf der Grundlage von Sensormesswerten oder Prozessparametern(Improving Manufacturing with Computer Vision).

Beziehung zu anderen Modellen

Entscheidungsbäume bilden die Grundlage für komplexere Ensemble-Methoden wie Random Forests und Gradient Boosted Trees (wie XGBoost oder LightGBM). Random Forests zum Beispiel erstellen mehrere Entscheidungsbäume auf verschiedenen Teilmengen von Daten und Merkmalen und fassen ihre Vorhersagen zusammen, was oft zu einer besseren Genauigkeit und Robustheit gegen Überanpassung im Vergleich zu einem einzelnen Baum führt. Obwohl Entscheidungsbäume für viele Probleme mit tabellarischen Daten sehr leistungsfähig sind, unterscheiden sie sich deutlich von Modellen wie Convolutional Neural Networks (CNNs) oder Vision Transformers (ViT), die in der Computer Vision eingesetzt werden. Modelle wie Ultralytics YOLO11 nutzen Deep-Learning-Architekturen, die für Aufgaben wie Objekterkennung, Bildklassifizierung und Instanzsegmentierung optimiert sind, bei denen es um die Verarbeitung komplexer, hochdimensionaler Daten wie Bilder geht - ein Bereich, in dem einzelne Entscheidungsbäume weniger effektiv sind. Das Verständnis grundlegender Modelle wie Entscheidungsbäume bietet einen wertvollen Kontext in der breiteren Landschaft der KI und prädiktiven Modellierung. Tools wie Scikit-learn bieten beliebte Implementierungen für Entscheidungsbäume, während Plattformen wie Ultralytics HUB die Entwicklung und den Einsatz von fortgeschrittenen Bildverarbeitungsmodellen vereinfachen.

Alles lesen