Glossaire

CatBoost

Booste tes projets d'apprentissage automatique avec CatBoost, une puissante bibliothèque de boosting de gradient qui excelle dans le traitement des données catégorielles et les applications du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

CatBoost est une bibliothèque de gradient boosting performante et open-source développée par Yandex. Elle se distingue dans le domaine de l'apprentissage automatique (ML) par sa gestion exceptionnelle des caractéristiques catégorielles, sa robustesse face à l'overfitting et sa précision souvent supérieure avec un réglage minimal des paramètres. Basé sur le concept du gradient boosting sur les arbres de décision, CatBoost met en œuvre de nouveaux algorithmes pour traiter les données catégorielles de manière efficace et efficiente, ce qui en fait un choix populaire pour les tâches impliquant des données structurées ou tabulaires.

Concepts et techniques de base

CatBoost s'appuie sur les fondements du gradient boosting, une technique d'ensemble où de nouveaux modèles sont ajoutés séquentiellement pour corriger les erreurs commises par les modèles précédents. Les principales innovations de CatBoost sont les suivantes :

  • Boosting ordonné : Une approche de la formation basée sur la permutation qui aide à combattre le changement de prédiction causé par la fuite de cible, un problème courant dans les implémentations standard de boosting de gradient lorsqu'il s'agit de caractéristiques catégorielles. Cela contribue à une meilleure généralisation du modèle.
  • Traitement des caractéristiques catégorielles : Au lieu de nécessiter un prétraitement important comme l'encodage à une touche, CatBoost utilise des techniques comme les statistiques de cibles ordonnées et les combinaisons de caractéristiques catégorielles pour les convertir en représentations numériques au cours de la formation. Cela permet souvent d'obtenir de meilleurs résultats et de simplifier le pipeline de prétraitement des données.
  • Arbres symétriques : CatBoost utilise généralement des arbres de décision oblivides (arbres symétriques) comme apprenants de base, ce qui peut conduire à des temps de prédiction plus rapides et aider à prévenir le surajustement.

Distinguer CatBoost des algorithmes similaires

CatBoost appartient à la famille des gradient boosting machines (GBM), aux côtés de bibliothèques populaires comme XGBoost et LightGBM. Bien que ces trois algorithmes soient puissants pour l'apprentissage supervisé sur des données tabulaires, CatBoost se différencie principalement par sa gestion intégrée et sophistiquée des caractéristiques catégorielles. Par rapport à XGBoost ou LightGBM, cela réduit souvent la nécessité d'une ingénierie manuelle des caractéristiques et d'un réglage approfondi des hyperparamètres, en particulier sur les ensembles de données comportant de nombreuses variables catégorielles. Cependant, il est important de noter que ces algorithmes excellent principalement avec des données structurées et tabulaires. Pour les tâches de vision par ordinateur (VA), telles que la classification d'images ou la détection d'objets, des architectures spécialisées telles que les réseaux neuronaux convolutifs (CNN) et des modèles comme Ultralytics YOLO sont généralement employés, souvent gérés et formés à l'aide de plateformes comme Ultralytics HUB.

Applications dans le monde réel

CatBoost est largement utilisé dans divers secteurs d'activité en raison de ses performances et de sa facilité d'utilisation, en particulier avec des ensembles de données diversifiés :

  • Détection des fraudes : Les institutions financières utilisent CatBoost pour identifier les transactions frauduleuses en utilisant efficacement les caractéristiques catégorielles telles que les types de transactions, les identifiants des commerçants, les emplacements des utilisateurs et les informations sur les appareils sans prétraitement complexe. En savoir plus sur l'IA dans la finance.
  • Systèmes de recommandation : Les plateformes de commerce électronique et de diffusion en continu s'appuient sur CatBoost pour créer des systèmes de recommandation. Il traite efficacement les identifiants catégoriels des utilisateurs et des articles, l'historique des interactions et les informations contextuelles pour prédire les préférences des utilisateurs ou les taux de clics.
  • Prédiction du désabonnement des clients : Les entreprises utilisent CatBoost pour prédire quels clients sont susceptibles d'arrêter d'utiliser leur service, en incorporant divers points de données catégoriels comme les plans d'abonnement, les habitudes d'utilisation et les informations démographiques.

Outils et ressources

La bibliothèque CatBoost offre une intégration facile aux flux de travail populaires de la science des données, principalement grâce à son paquetagePython . Elle fournit également des interfaces pour l'utilisation de R et de la ligne de commande. Une documentation complète et des tutoriels sont disponibles sur le site officiel de CatBoost, guidant les utilisateurs à travers la formation, l'évaluation et le déploiement de modèles.

Tout lire