Glossar

CatBoost

Steigere deine Machine-Learning-Projekte mit CatBoost, einer leistungsstarken Gradient-Boosting-Bibliothek, die sich bei der Verarbeitung kategorischer Daten und bei realen Anwendungen auszeichnet.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

CatBoost ist eine leistungsstarke Open-Source-Bibliothek für Gradient Boosting auf Entscheidungsbäumen. Gradient Boosting ist eine Technik des maschinellen Lernens, die bei Klassifizierungs- und Regressionsproblemen eingesetzt wird. Dabei werden mehrere schwache Modelle, in der Regel Entscheidungsbäume, kombiniert, um ein stärkeres Vorhersagemodell zu erstellen. CatBoost eignet sich besonders gut für kategoriale Merkmale, d.h. für Variablen, die eher Kategorien als numerische Werte darstellen. Es wurde von Yandex-Forschern und -Ingenieuren entwickelt und kann für Aufgaben wie Erkennung, Ranking, Empfehlung und Vorhersage eingesetzt werden.

Hauptmerkmale und Vorteile

CatBoost bietet mehrere Vorteile gegenüber anderen Gradient-Boosting-Algorithmen, wie XGBoost und LightGBM. Eine seiner Hauptstärken ist die Fähigkeit, direkt mit kategorialen Merkmalen zu arbeiten, ohne dass umfangreiche Vorverarbeitungen wie One-Hot-Codierung erforderlich sind. Dies wird durch eine Technik erreicht, die als "Ordered Boosting" bezeichnet wird und die dazu beiträgt, die Überanpassung zu reduzieren und die Generalisierungsleistung zu verbessern.

Darüber hinaus bietet CatBoost integrierte Unterstützung für den Umgang mit fehlenden Werten, was den Prozess der Datenaufbereitung weiter vereinfacht. Außerdem bietet es GPU Beschleunigung für schnelleres Training, was besonders bei der Arbeit mit großen Datensätzen von Vorteil ist. Die Fähigkeit von CatBoost, kategoriale Daten effizient zu verarbeiten, macht es besonders geeignet für Aufgaben mit strukturierten Daten, die häufig in Branchen wie dem Finanzwesen, dem E-Commerce und der Produktion vorkommen.

Wie CatBoost funktioniert

CatBoost baut ein Ensemble von Entscheidungsbäumen nacheinander auf. In jeder Iteration wird ein neuer Baum erstellt, um die Fehler des bestehenden Ensembles zu korrigieren. Dieser Prozess wird so lange fortgesetzt, bis eine bestimmte Anzahl von Bäumen erstellt wurde oder sich die Leistung des Modells nicht mehr deutlich verbessert.

Der Algorithmus verwendet eine neuartige Technik, die sogenannte geordnete Zielstatistik, um kategoriale Merkmale während des Trainings in numerische Darstellungen umzuwandeln. Diese Technik hilft dabei, Target Leakage zu verhindern, ein häufiges Problem beim Umgang mit kategorialen Daten, bei dem Informationen aus der Zielvariable versehentlich in die Merkmalsdarstellung gelangen.

Anwendungen von CatBoost

Die Vielseitigkeit und Leistung von CatBoost haben dazu geführt, dass es in verschiedenen realen Anwendungen eingesetzt wird.

Betrugsaufdeckung

In der Finanzbranche wird CatBoost eingesetzt, um betrügerische Transaktionen zu erkennen, indem Muster in Transaktionsdaten analysiert werden, die oft zahlreiche kategorische Merkmale wie Transaktionsart, Händlerkategorie und Standort enthalten. Da CatBoost diese Merkmale direkt und ohne umfangreiche Vorverarbeitung verarbeiten kann, ist es für diese Aufgabe besonders geeignet.

Vorhersage der Click-Through-Rate

Online-Werbung hängt stark von der Vorhersage der Wahrscheinlichkeit ab, dass ein Nutzer auf eine Anzeige klickt. CatBoost wird eingesetzt, um Modelle zu erstellen, die die Klickraten vorhersagen, indem sie Faktoren wie die Demografie der Nutzer, den Inhalt der Anzeige und das historische Klickverhalten berücksichtigen. Seine Leistung bei Datensätzen mit einer Mischung aus numerischen und kategorialen Merkmalen macht ihn zu einer beliebten Wahl für diese Anwendung.

Produkt-Empfehlungen

E-Commerce-Plattformen nutzen CatBoost, um Empfehlungssysteme aufzubauen. Durch die Analyse des Surf- und Kaufverhaltens der Nutzer/innen sowie der Produktmerkmale kann CatBoost personalisierte Produktempfehlungen erstellen, die das Nutzererlebnis verbessern und den Umsatz steigern können.

Risikobewertung

Versicherungsunternehmen nutzen CatBoost, um das mit potenziellen Kunden verbundene Risiko zu bewerten. Durch die Analyse verschiedener Faktoren wie Alter, Standort und Art der Police können CatBoost-Modelle die Wahrscheinlichkeit von Schadensfällen vorhersagen und den Versicherern helfen, fundierte Entscheidungen über Prämien und Versicherungsschutz zu treffen.

CatBoost im Vergleich zu anderen Gradient Boosting Algorithmen

Obwohl CatBoost Ähnlichkeiten mit anderen Gradient-Boost-Algorithmen wie XGBoost und LightGBM aufweist, hat es deutliche Vorteile. Im Gegensatz zu XGBoost, bei dem kategoriale Merkmale mit Techniken wie One-Hot-Encoding vorverarbeitet werden müssen, kann CatBoost sie direkt verarbeiten. Das vereinfacht den Arbeitsablauf und führt oft zu einer besseren Leistung, insbesondere bei kategorialen Merkmalen mit hoher Kardinalität.

Im Vergleich zu LightGBM kann das geordnete Boosting-Verfahren von CatBoost eine bessere Generalisierungsleistung erbringen, insbesondere bei kleineren Datensätzen. Aufgrund seines histogrammbasierten Ansatzes trainiert LightGBM jedoch oft schneller, insbesondere bei sehr großen Datensätzen.

Integration mit Computer Vision

Obwohl CatBoost in erster Linie auf strukturierte Daten ausgerichtet ist, kann es mit Computer-Vision-Modellen kombiniert werden, um die Leistung in bestimmten Anwendungen zu verbessern. Zum Beispiel können Merkmale, die mit Hilfe von Modellen aus Bildern extrahiert Ultralytics YOLO Modelle extrahiert wurden, zusammen mit anderen kategorialen und numerischen Merkmalen als Input für ein CatBoost-Modell verwendet werden. Dieser Ansatz kann bei Aufgaben wie der medizinischen Bildanalyse von Vorteil sein, wo Patientendaten (Alter, Geschlecht, Krankengeschichte) mit Bildmerkmalen kombiniert werden können, um die Diagnosegenauigkeit zu verbessern. Du kannst Modelle auch mit dem PaketUltralytics Python trainieren, validieren, vorhersagen und exportieren.

Verwendung von CatBoost mit Ultralytics HUB

Während Ultralytics HUB in erster Linie für das Training und den Einsatz von Computer Vision Modellen wie Ultralytics YOLO entwickelt wurde, ist es möglich, CatBoost Modelle in die Pipeline zu integrieren. So können zum Beispiel nach dem Training eines Objekterkennungsmodells mit Ultralytics HUB die Merkmale der erkannten Objekte exportiert und als Input für ein CatBoost-Modell für weitere Analyse- oder Vorhersageaufgaben verwendet werden. Dies zeigt, wie flexibel die Kombination verschiedener maschineller Lernverfahren ist, um umfassende KI-Lösungen zu entwickeln.

Alles lesen