Glossar

Entscheidungsbaum

Entdecke die Leistungsfähigkeit von Entscheidungsbäumen beim maschinellen Lernen für Klassifizierung, Regression und reale Anwendungen wie Gesundheitswesen und Finanzen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Ein Entscheidungsbaum ist ein grundlegender Algorithmus im maschinellen Lernen, der sowohl für Klassifizierungs- als auch für Regressionsaufgaben verwendet wird. Es handelt sich um eine baumartige Struktur, bei der jeder interne Knoten ein Merkmal (oder Attribut), jeder Zweig eine Entscheidungsregel und jeder Blattknoten ein Ergebnis darstellt. Die Struktur ist so angelegt, dass sie den menschlichen Entscheidungsprozess nachahmt und dadurch intuitiv und leicht verständlich ist. Entscheidungsbäume sind aufgrund ihrer Einfachheit, ihrer Interpretierbarkeit und ihrer Fähigkeit, sowohl numerische als auch kategoriale Daten zu verarbeiten, sehr beliebt. Sie werden in vielen Bereichen eingesetzt, z. B. im Gesundheitswesen, im Finanzwesen und im Marketing, z. B. bei der Diagnose, der Risikobewertung und der Kundensegmentierung.

Wichtige Konzepte und Struktur

Entscheidungsbäume werden durch einen Prozess namens rekursive Partitionierung erstellt. Dabei werden die Daten auf der Grundlage der Werte verschiedener Merkmale in Teilmengen aufgeteilt. Ziel ist es, Teilmengen zu erstellen, die in Bezug auf die Zielvariable so homogen wie möglich sind.

  • Wurzelknoten: Der oberste Knoten im Baum, der den ersten Entscheidungspunkt oder das Merkmal darstellt, das die Daten am besten aufteilt.
  • Interne Knoten: Knoten, die Merkmale des Datensatzes und Verzweigungen zu weiteren Knoten darstellen.
  • Verzweigungen: Verbindungen zwischen Knoten, die die möglichen Werte des Merkmals am übergeordneten Knoten darstellen.
  • Blattknoten: Endknoten, die die endgültigen Ergebnisse oder vorhergesagten Werte darstellen.

Einen Entscheidungsbaum erstellen

Bei der Erstellung eines Entscheidungsbaums wird das beste Merkmal ausgewählt, um die Daten an jedem Knotenpunkt aufzuteilen. Diese Auswahl basiert auf Kriterien, die die Homogenität der resultierenden Teilmengen messen. Zu den gängigen Kriterien gehören:

  • Gini-Unschärfe: Ein Maß für die Wahrscheinlichkeit, ein zufällig ausgewähltes Element falsch zu klassifizieren.
  • Informationsgewinn: Basierend auf dem Konzept der Entropie misst er die Verringerung der Unsicherheit über die Zielvariable bei Kenntnis eines Merkmals.
  • Varianzreduktion: Sie wird für Regressionsaufgaben verwendet und misst die Verringerung der Varianz der Zielvariablen.

Erfahre mehr über das Tuning von Hyperparametern, um die Leistung von Entscheidungsbäumen und anderen maschinellen Lernmodellen zu optimieren.

Vorteile von Entscheidungsbäumen

Entscheidungsbäume werden wegen ihrer Interpretierbarkeit und Benutzerfreundlichkeit bevorzugt. Sie können sowohl numerische als auch kategoriale Daten verarbeiten, ohne dass eine umfangreiche Datenvorverarbeitung erforderlich ist. Außerdem können Entscheidungsbäume nicht-lineare Beziehungen und Wechselwirkungen zwischen Merkmalen erfassen, was sie für eine Vielzahl von Anwendungen vielseitig macht. Die visuelle Natur von Entscheidungsbäumen ermöglicht ein einfaches Verständnis des Entscheidungsprozesses, was besonders in Bereichen wertvoll ist, in denen Transparenz entscheidend ist, wie z. B. in der medizinischen Bildanalyse und im Finanzwesen.

Anwendungen in der realen Welt

Entscheidungsbäume werden in verschiedenen realen Anwendungen eingesetzt, was ihre Vielseitigkeit und Effektivität beweist.

Medizinische Diagnose

Im Gesundheitswesen werden Entscheidungsbäume zur Unterstützung bei der Diagnose von Krankheiten auf der Grundlage von Patientensymptomen und Testergebnissen eingesetzt. Ein Entscheidungsbaum kann zum Beispiel dabei helfen, die Wahrscheinlichkeit zu bestimmen, dass ein Patient an Diabetes erkrankt ist, und zwar anhand von Faktoren wie Alter, BMI, Familiengeschichte und Blutzuckerspiegel. Die Baumstruktur ermöglicht es Ärzten, einen klaren Pfad von Entscheidungen zu verfolgen, der zu einer Diagnose führt. Erfahre, wie KI die medizinische Bildgebung verbessert.

Kreditwürdigkeitsprüfung

Finanzinstitute verwenden Entscheidungsbäume, um das Kreditrisiko zu bewerten. Durch die Analyse von Faktoren wie Einkommen, Kredithistorie, Beschäftigungsstatus und Kredithöhe kann ein Entscheidungsbaum die Wahrscheinlichkeit vorhersagen, dass ein Kreditnehmer einen Kredit nicht zurückzahlen kann. Das hilft Banken, fundierte Kreditentscheidungen zu treffen und Risiken effektiv zu managen. Erfahre mehr über die Anwendungen von KI im Finanzwesen.

Entscheidungsbäume vs. andere Algorithmen

Obwohl Entscheidungsbäume leistungsstark sind, werden sie oft mit anderen Algorithmen des maschinellen Lernens verglichen.

  • Random Forest: Eine Ensemble-Methode, die mehrere Entscheidungsbäume aufbaut und deren Ergebnisse zusammenführt, um die Genauigkeit zu verbessern und die Überanpassung zu kontrollieren. Erfahre mehr über Random Forest.
  • Support Vector Machines (SVM): Effektiv für hochdimensionale Daten und komplexe Datensätze, aber weniger interpretierbar als Entscheidungsbäume. Erforsche SVMs im Detail.
  • Neuronale Netze: Sehr flexibel und in der Lage, komplizierte Muster zu lernen, aber sie benötigen mehr Daten und sind weniger interpretierbar. Erfahre mehr über Neuronale Netze.

Herausforderungen und Beschränkungen

Trotz ihrer Vorteile haben Entscheidungsbäume auch ihre Grenzen. Sie können zu einer Überanpassung neigen, besonders wenn der Baum sehr tief ist. Zu einer Überanpassung kommt es, wenn der Baum das Rauschen in den Trainingsdaten erfasst, was zu einer schlechten Generalisierung auf neue, ungesehene Daten führt. Techniken wie das Beschneiden des Baums, die Festlegung einer Mindestanzahl von Stichproben pro Blatt oder die Begrenzung der maximalen Tiefe des Baums können helfen, dieses Problem zu mildern. Erfahre mehr über Overfitting.

Außerdem erfassen Entscheidungsbäume nicht immer die komplexesten Beziehungen in den Daten, da sie Entscheidungen auf der Grundlage eines einzigen Merkmals an jedem Knoten treffen. Ensemble-Methoden wie Random Forest und Gradient Boosting können durch die Kombination mehrerer Entscheidungsbäume oft eine bessere Vorhersageleistung erzielen.

Weitere Informationen zu den Objekterkennungsmodellen und ihrer Leistung findest du in der DokumentationUltralytics YOLO models.

Alles lesen