Glossaire

CatBoost

Booste tes projets d'apprentissage automatique avec CatBoost, une puissante bibliothèque de boosting de gradient qui excelle dans le traitement des données catégorielles et les applications du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

CatBoost est une bibliothèque open-source très performante pour le boosting de gradient sur les arbres de décision. Le boosting de gradient est une technique d'apprentissage automatique utilisée pour les problèmes de classification et de régression, où plusieurs modèles faibles, généralement des arbres de décision, sont combinés pour créer un modèle prédictif plus fort. CatBoost excelle dans le traitement des caractéristiques catégorielles, qui sont des variables représentant des catégories plutôt que des valeurs numériques. Développé par les chercheurs et les ingénieurs de Yandex, il peut être utilisé pour des tâches telles que la détection, le classement, la recommandation et les prévisions.

Principales caractéristiques et avantages

CatBoost offre plusieurs avantages par rapport à d'autres algorithmes de renforcement du gradient, tels que XGBoost et LightGBM. L'un de ses principaux atouts est sa capacité à travailler directement avec des caractéristiques catégorielles sans nécessiter de prétraitement important tel que le codage à une touche. Cela est possible grâce à une technique appelée boosting ordonné, qui permet de réduire le surajustement et d'améliorer les performances de généralisation.

En outre, CatBoost offre une prise en charge intégrée de la gestion des valeurs manquantes, ce qui simplifie encore le processus de préparation des données. Il offre également l'accélération GPU pour une formation plus rapide, ce qui est particulièrement bénéfique lorsque l'on travaille avec de grands ensembles de données. La capacité de CatBoost à traiter efficacement les données catégorielles le rend particulièrement adapté aux tâches impliquant des données structurées, que l'on retrouve souvent dans des secteurs tels que la finance, le commerce électronique et la fabrication.

Comment fonctionne CatBoost

CatBoost construit un ensemble d'arbres de décision de façon séquentielle. À chaque itération, un nouvel arbre est construit pour corriger les erreurs commises par l'ensemble existant. Ce processus se poursuit jusqu'à ce qu'un nombre spécifié d'arbres soit construit ou que les performances du modèle cessent de s'améliorer de manière significative.

L'algorithme utilise une nouvelle technique appelée statistiques de cibles ordonnées pour convertir les caractéristiques catégorielles en représentations numériques pendant la formation. Cette technique permet d'éviter les fuites de cibles, un problème courant lorsqu'on traite des données catégorielles, où les informations de la variable cible s'infiltrent par inadvertance dans la représentation des caractéristiques.

Applications de CatBoost

La polyvalence et les performances de CatBoost ont conduit à son adoption dans diverses applications du monde réel.

Détection de la fraude

Dans le secteur financier, CatBoost est utilisé pour détecter les transactions frauduleuses en analysant les schémas des données de transaction, qui comprennent souvent de nombreuses caractéristiques catégorielles telles que le type de transaction, la catégorie du commerçant et le lieu. Sa capacité à traiter ces caractéristiques directement sans prétraitement important le rend très efficace pour cette tâche.

Prédiction du taux de clics

La publicité en ligne repose en grande partie sur la prédiction de la probabilité qu'un utilisateur clique sur une annonce. CatBoost est utilisé pour construire des modèles qui prédisent les taux de clics en tenant compte de facteurs tels que les données démographiques de l'utilisateur, le contenu de la publicité et l'historique des clics. Ses performances sur les ensembles de données comportant un mélange de caractéristiques numériques et catégorielles en font un choix populaire pour cette application.

Recommandations sur les produits

Les plateformes de commerce électronique s'appuient sur CatBoost pour créer des systèmes de recommandation. En analysant l'historique de navigation et d'achat des utilisateurs, ainsi que les attributs des produits, CatBoost peut générer des recommandations de produits personnalisées, améliorant ainsi l'expérience de l'utilisateur et augmentant potentiellement les ventes.

Évaluation des risques

Les compagnies d'assurance utilisent CatBoost pour évaluer le risque associé aux clients potentiels. En analysant divers facteurs tels que l'âge, le lieu et le type de police, les modèles CatBoost peuvent prédire la probabilité de sinistres, ce qui aide les assureurs à prendre des décisions éclairées en matière de primes et de couverture.

CatBoost vs. les autres algorithmes de renforcement du gradient

Bien que CatBoost partage des similitudes avec d'autres algorithmes de renforcement du gradient tels que XGBoost et LightGBM, il présente des avantages distincts. Contrairement à XGBoost, qui exige que les caractéristiques catégorielles soient prétraitées à l'aide de techniques telles que l'encodage à une touche, CatBoost peut les traiter directement. Cela simplifie le flux de travail et permet souvent d'obtenir de meilleures performances, en particulier lorsqu'il s'agit de caractéristiques catégorielles à cardinalité élevée.

Comparée à LightGBM, la technique de boosting ordonné de CatBoost peut fournir de meilleures performances de généralisation, en particulier sur les petits ensembles de données. Cependant, LightGBM s'entraîne souvent plus rapidement, en particulier sur de très grands ensembles de données, en raison de son approche basée sur l'histogramme.

Intégration avec la vision par ordinateur

Bien que CatBoost cible principalement les données structurées, il peut être combiné avec des modèles de vision par ordinateur pour améliorer les performances dans certaines applications. Par exemple, les caractéristiques extraites des images à l'aide de modèles Ultralytics YOLO peuvent être utilisées avec d'autres caractéristiques catégorielles et numériques comme données d'entrée d'un modèle CatBoost. Cette approche peut être bénéfique dans des tâches telles que l'analyse d'images médicales, où les données du patient (âge, sexe, antécédents médicaux) peuvent être combinées avec les caractéristiques de l'image pour améliorer la précision du diagnostic. Tu peux également former, valider, prédire et exporter des modèles à l'aide du logicielUltralytics Python .

Utilisation de CatBoost avec Ultralytics HUB

Bien que Ultralytics HUB soit principalement conçu pour entraîner et déployer des modèles de vision artificielle comme Ultralytics YOLO , il est possible d'intégrer des modèles CatBoost dans le pipeline. Par exemple, après avoir entraîné un modèle de détection d'objets à l'aide de Ultralytics HUB, les caractéristiques des objets détectés peuvent être exportées et utilisées comme entrée d'un modèle CatBoost pour d'autres tâches d'analyse ou de prédiction. Cela démontre la flexibilité de la combinaison de différentes techniques d'apprentissage automatique pour construire des solutions d'IA complètes.

Tout lire