Glossar

Zufälliger Wald

Entdecken Sie, wie Random Forest, ein leistungsstarker Ensemble-Lernalgorithmus, sich bei Klassifizierung, Regression und realen KI-Anwendungen auszeichnet.

Random Forest ist ein vielseitiger und leistungsfähiger Algorithmus für überwachtes Lernen, der sowohl für Klassifizierungs- als auch für Regressionsaufgaben beim maschinellen Lernen (ML) verwendet wird. Als eine Art Ensemble-Methode funktioniert er, indem er während des Trainingsprozesses eine Vielzahl von Entscheidungsbäumen konstruiert. Bei einer Klassifizierungsaufgabe ist die endgültige Ausgabe die Klasse, die von den meisten Bäumen ausgewählt wurde; bei einer Regressionsaufgabe ist es die durchschnittliche Vorhersage der einzelnen Bäume. Dieser Ansatz, bei dem mehrere Modelle kombiniert werden, trägt dazu bei, die Vorhersagegenauigkeit zu verbessern und die Überanpassung zu kontrollieren, wodurch er robuster ist als ein einzelner Entscheidungsbaum.

So funktioniert Random Forest

Die Kernidee hinter Random Forest ist die Einführung von Zufälligkeiten, um einen "Wald" von unkorrelierten Entscheidungsbäumen zu erstellen. Diese Zufälligkeit wird in erster Linie auf zwei Arten eingebracht:

  1. Bootstrap-Aggregation (Bagging): Jeder einzelne Baum im Wald wird anhand einer anderen, zufälligen Stichprobe der Trainingsdaten trainiert. Diese Stichprobe wird mit Ersetzung durchgeführt, was bedeutet, dass einige Datenpunkte mehrfach in einer einzigen Stichprobe verwendet werden können, während andere möglicherweise überhaupt nicht verwendet werden. Diese Technik ist formell als Bootstrap-Aggregation bekannt.
  2. Zufälligkeit der Merkmale: Bei der Aufteilung eines Knotens in einem Entscheidungsbaum sucht der Algorithmus nicht nach der besten Aufteilung unter allen Merkmalen. Stattdessen wählt er eine zufällige Teilmenge von Merkmalen aus und findet die optimale Aufteilung nur innerhalb dieser Teilmenge. Dadurch wird sichergestellt, dass die Bäume vielfältig sind und verhindert, dass einige starke Merkmale alle Bäume dominieren.

Durch die Kombination der Vorhersagen dieser verschiedenen Bäume verringert das Modell die Varianz und erzielt in der Regel eine bessere Leistung als jeder einzelne Baum für sich allein. Der Algorithmus wurde von Leo Breiman und Adele Cutler entwickelt und ist für viele Datenwissenschaftler zu einem Standardwerkzeug geworden.

Anwendungen in der realen Welt

Random Forest wird aufgrund seiner Einfachheit und Effektivität in vielen Branchen eingesetzt, insbesondere bei tabellarischen oder strukturierten Daten.

  • Finanzdienstleistungen: Banken und Finanzinstitute verwenden Random-Forest-Modelle zur Kreditrisikobewertung. Durch die Analyse von Kundendaten wie Einkommen, Kredithistorie und Alter kann das Modell vorhersagen, wie hoch die Wahrscheinlichkeit ist, dass ein Kunde mit einem Kredit in Verzug gerät. Es ist auch ein wichtiges Instrument der KI im Finanzwesen, um betrügerische Kreditkartentransaktionen zu erkennen.
  • Gesundheitswesen: Im medizinischen Bereich kann Random Forest für die Diagnose von Krankheiten und die Risikostratifizierung von Patienten eingesetzt werden. So können zum Beispiel Patientendaten und Symptome analysiert werden, um vorherzusagen, ob ein Patient eine bestimmte Krankheit hat, was den Ärzten hilft, genauere Diagnosen zu stellen. Weitere Informationen über ähnliche Anwendungen finden Sie in unserem Überblick über KI im Gesundheitswesen.
  • Elektronischer Handel: Online-Händler verwenden Random Forest, um Empfehlungssysteme zu erstellen, die den Nutzern Produkte auf der Grundlage ihres Surfverhaltens, ihrer Kaufgewohnheiten und anderer Verhaltensweisen vorschlagen.

Beziehung zu anderen Modellen

Es ist wichtig zu verstehen, wie sich Random Forest zu anderen Modellen in der KI-Landschaft verhält.

  • Entscheidungsbäume: Ein Random Forest ist im Grunde ein Ensemble von Entscheidungsbäumen. Während ein einzelner Entscheidungsbaum einfach zu interpretieren ist, neigt er dazu, sich zu sehr an die Trainingsdaten anzupassen. Random Forest überwindet diese Einschränkung, indem er die Ergebnisse vieler Bäume mittelt und so ein allgemeineres Modell erstellt.
  • Boosting-Algorithmen: Wie Random Forest sind auch Algorithmen wie XGBoost und LightGBM Ensemble-Methoden, die auf Entscheidungsbäumen basieren. Sie verwenden jedoch eine andere Strategie namens Boosting, bei der die Bäume nacheinander aufgebaut werden, wobei jeder neue Baum versucht, die Fehler des vorherigen zu korrigieren. Im Gegensatz dazu baut Random Forest seine Bäume unabhängig und parallel auf.
  • Deep Learning-Modelle: Random Forest ist sehr effektiv für Probleme mit strukturierten Daten. Bei unstrukturierten Daten wie Bildern und Text sind Deep-Learning-Modelle wie Convolutional Neural Networks (CNNs) oder Vision Transformers (ViT) jedoch weit überlegen. In der Computer Vision werden Aufgaben wie Objekterkennung oder Instanzsegmentierung am besten von spezialisierten Architekturen wie Ultralytics YOLO11 gelöst.

Technologien und Werkzeuge

Mehrere beliebte Bibliotheken für maschinelles Lernen bieten Implementierungen des Random-Forest-Algorithmus. Scikit-learn, eine weit verbreitete Python-Bibliothek, bietet eine umfassende Random-Forest-Implementierung mit Optionen zur Abstimmung der Hyperparameter. Während sie für viele traditionelle ML-Aufgaben leistungsstark sind, sind für modernste Computer-Vision-Anwendungen oft spezielle Architekturen und Plattformen erforderlich, die den MLOps-Lebenszyklus unterstützen. Entdecken Sie verschiedene Ultralytics-Lösungen, die YOLO-Modelle für reale Bildverarbeitungsprobleme nutzen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert