Glossar

CatBoost

Entdecken Sie CatBoost, einen leistungsstarken Gradientenverstärkungsalgorithmus für kategoriale Daten. Erfahren Sie, wie er zusammen mit Ultralytics die Vorhersagemodellierung für KI-Workflows verbessert.

CatBoost (Categorical Boosting) ist ein Open-Source-Algorithmus für maschinelles Lernen, der auf Gradientenboosting bei Entscheidungsbäumen basiert. Er wurde von Yandex entwickelt und ist darauf ausgelegt, mit minimaler Datenaufbereitung eine hohe Leistung zu erzielen. Er eignet sich besonders für die Verarbeitung von kategorialen Daten – Variablen, die bestimmte Gruppen oder Bezeichnungen anstelle von numerischen Werten darstellen. Während herkömmliche Algorithmen oft komplexe Vorverarbeitungstechniken wie One-Hot-Kodierung erfordern, um Kategorien in Zahlen umzuwandeln, kann CatBoost diese Merkmale direkt während des Trainings verarbeiten. Diese Fähigkeit, kombiniert mit seiner Fähigkeit, Überanpassung durch geordnetes Boosting zu reduzieren, macht ihn zu einer robusten Wahl für eine Vielzahl von prädiktiven Modellierungsaufgaben in der Datenwissenschaft.

Kernvorteile und Mechanismus

CatBoost unterscheidet sich von anderen Ensemble-Methoden durch mehrere architektonische Entscheidungen, die Genauigkeit und Benutzerfreundlichkeit in den Vordergrund stellen.

Native kategoriale Unterstützung: Der Algorithmus verwendet eine Technik namens „ordered target statistics“, um kategoriale Werte während des Trainings in Zahlen umzuwandeln. Dies verhindert das bei Standard-Kodierungsmethoden häufig auftretende Zielleck und bewahrt die Integrität des Validierungsprozesses.
Ordered Boosting: Standard-Gradient-Boosting-Methoden können unter einer Vorhersageverschiebung leiden, einer Art von Verzerrung in der KI. CatBoost behebt dieses Problem durch einen permutationsgesteuerten Ansatz zum Trainieren des Modells, wodurch sichergestellt wird, dass das Modell nicht übermäßig an die spezifische Trainingsdatenverteilung angepasst wird .
Symmetrische Bäume: Im Gegensatz zu vielen anderen Boosting-Bibliotheken, die Bäume in der Tiefe oder in den Blättern wachsen lassen, baut CatBoost symmetrische (ausgewogene) Bäume. Diese Struktur ermöglicht extrem schnelle Inferenzgeschwindigkeiten, was für Echtzeit-Inferenzanwendungen entscheidend ist .

CatBoost vs. XGBoost und LightGBM

CatBoost wird häufig zusammen mit anderen beliebten Boosting-Bibliotheken bewertet. Obwohl sie dasselbe zugrunde liegende Framework verwenden, weisen sie unterschiedliche Eigenschaften auf.

XGBoost: Eine hochflexible und weit verbreitete Bibliothek, die für ihre Leistung in Data-Science-Wettbewerben bekannt ist. In der Regel erfordert sie eine sorgfältige Hyperparameter-Optimierung und manuelle Kodierung kategorialer Variablen, um Spitzenleistungen zu erzielen.
LightGBM: Diese Bibliothek verwendet eine Leaf-Wise-Wachstumsstrategie, wodurch sie für das Training mit riesigen Datensätzen außergewöhnlich schnell ist. Ohne sorgfältige Regularisierung kann sie jedoch im Vergleich zu den stabilen symmetrischen Bäumen von CatBoost zu Überanpassungen bei kleineren Datensätzen neigen.
CatBoost: Bietet oft die beste „Out-of-the-Box”-Genauigkeit mit Standardparametern. Es ist in der Regel die bevorzugte Wahl, wenn Datensätze eine erhebliche Anzahl kategorialer Merkmale enthalten, wodurch der Bedarf an umfangreichem Feature Engineering reduziert wird.

Anwendungsfälle in der Praxis

Die Robustheit von CatBoost macht es zu einem vielseitigen Werkzeug für verschiedene Branchen, die mit strukturierten Daten arbeiten.

Finanzrisikobewertung: Banken und Fintech-Unternehmen nutzen CatBoost, um die Kreditwürdigkeit zu bewerten und Kreditausfälle vorherzusagen. Das Modell kann verschiedene Datentypen, wie den Beruf des Antragstellers (kategorial) und sein Einkommensniveau (numerisch), nahtlos integrieren, um genaue Risikoprofile zu erstellen. Diese Fähigkeit ist ein Grundpfeiler der modernen KI im Finanzwesen.
E-Commerce-Empfehlungen: Online-Händler nutzen CatBoost, um personalisierte Empfehlungssysteme zu betreiben. Durch die Analyse von Nutzerverhaltensprotokollen , Produktkategorien und Kaufhistorien sagt der Algorithmus die Wahrscheinlichkeit voraus, mit der ein Nutzer auf einen Artikel klickt oder ihn kauft, was direkt zur Optimierung der KI im Einzelhandel beiträgt.

Integration mit Computer Vision

CatBoost ist zwar in erster Linie ein Tool für tabellarische Daten, spielt jedoch eine wichtige Rolle in multimodalen Modell-Workflows, in denen visuelle Daten auf strukturierte Metadaten treffen. Ein gängiger Workflow besteht darin, mithilfe eines Computer-Vision-Modells Merkmale aus Bildern zu extrahieren und diese Merkmale dann in einen CatBoost-Klassifikator einzuspeisen.

Ein Immobilienbewertungssystem könnte beispielsweise Ultralytics verwenden, um Objekte auf Immobilienfotos zu erkennen und Ausstattungsmerkmale wie Pools oder Sonnenkollektoren zu zählen. Die Anzahl dieser Objekte wird dann zusammen mit Standort- und Flächenangaben als numerische Merkmale an ein CatBoost-Modell weitergeleitet, um den Wert der Immobilie vorherzusagen. Entwickler können die Bildverarbeitungskomponente dieser Pipelines mit der Ultralytics verwalten, die die Verwaltung von Datensätzen und die Bereitstellung von Modellen vereinfacht.

Das folgende Beispiel zeigt, wie ein vortrainiertes YOLO geladen wird, um die Anzahl der Objekte aus einem Bild zu extrahieren, die dann als Eingabemerkmale für ein CatBoost-Modell dienen könnten.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/property_image.jpg")

# Extract class counts (e.g., counting 'cars' or 'pools')
# This dictionary can be converted to a feature vector for CatBoost
class_counts = {}
for result in results:
    for cls in result.boxes.cls:
        class_name = model.names[int(cls)]
        class_counts[class_name] = class_counts.get(class_name, 0) + 1

print(f"Features for CatBoost: {class_counts}")

CatBoost

Trainieren Sie Ultralytics YOLO zur Rationalisierung von Arbeitsabläufen in verschiedenen Branchen

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Kernvorteile und Mechanismus

CatBoost vs. XGBoost und LightGBM

Anwendungsfälle in der Praxis

Integration mit Computer Vision

Mehr in dieser Kategorie lesen

12 Anwendungsfälle für Luftbildaufnahmen, unterstützt durch Computer Vision

Was ist monokulare Tiefenschätzung? Ein Überblick

Ein Blick auf die Verwendung von Ultralytics YOLO für die KI-Bedrohungserkennung

Werden Sie Mitglied der Ultralytics