Glossaire

LightGBM

Découvre LightGBM, le cadre de boosting de gradient rapide et efficace pour les grands ensembles de données, offrant une grande précision dans les applications d'apprentissage automatique.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

LightGBM, abréviation de Light Gradient Boosting Machine, est un système de gradient boosting performant et open-source développé par Microsoft. Il est largement utilisé dans l'apprentissage automatique pour des tâches telles que la classification, la régression et le classement. LightGBM est particulièrement connu pour sa vitesse et son efficacité, notamment lorsqu'il travaille avec de grands ensembles de données, offrant souvent une grande précision tout en consommant moins de mémoire par rapport à d'autres algorithmes de boosting. Il s'appuie sur les concepts des algorithmes d'arbre de décision et fait partie de la famille des méthodes de boosting de gradient.

Comment LightGBM atteint la vitesse et l'efficacité

LightGBM emploie plusieurs techniques innovantes pour optimiser les performances :

  • Échantillonnage unilatéral basé sur le gradient (GOSS) : Cette méthode se concentre sur les instances de données ayant des gradients plus importants (celles qui sont généralement sous-entraînées) et laisse tomber de façon aléatoire les instances ayant de petits gradients, ce qui permet de maintenir la précision tout en réduisant de façon significative le volume de données pour l'entraînement.
  • Regroupement de caractéristiques exclusives (EFB) : Cette technique permet de regrouper les caractéristiques mutuellement exclusives (caractéristiques qui prennent rarement des valeurs non nulles simultanément, ce qui est courant dans les données éparses), ce qui réduit le nombre de caractéristiques sans perdre beaucoup d'informations.
  • Croissance de l'arbre dans le sens des feuilles : Contrairement à la croissance traditionnelle par niveau utilisée par de nombreux autres algorithmes comme XGBoost, LightGBM fait croître les arbres par feuille (verticalement). Il choisit la feuille qui, selon lui, produira la plus grande réduction de perte, ce qui conduit souvent à une convergence plus rapide et à une meilleure précision, bien que cela puisse parfois conduire à un surajustement sur des ensembles de données plus petits s'il n'est pas correctement réglé par l'intermédiaire de l'ajustement des hyperparamètres.

Ces optimisations rendent LightGBM exceptionnellement rapide et efficace sur le plan de la mémoire, ce qui permet de s'entraîner sur des ensembles de données massifs qui pourraient être prohibitifs pour d'autres cadres.

Caractéristiques principales de LightGBM

LightGBM offre plusieurs avantages aux praticiens de la ML :

  • Vitesse d'apprentissage rapide : L'apprentissage est nettement plus rapide que celui de nombreux autres algorithmes de stimulation grâce à GOSS et EFB.
  • Utilisation réduite de la mémoire : Le traitement optimisé des données et le regroupement des fonctions réduisent l'empreinte mémoire.
  • Grande précision : Permet souvent d'obtenir des résultats de pointe pour les tâches liées aux données tabulaires.
  • Prise en charge duGPU : Peut tirer parti de la technologie GPU pour une formation encore plus rapide.
  • Formation parallèle et distribuée : Prend en charge la formation distribuée pour traiter des ensembles de données extrêmement volumineux sur plusieurs machines. Tu peux consulter la documentation officielle de LightGBM pour plus de détails.
  • Traite les caractéristiques catégorielles : Peut traiter directement les caractéristiques catégorielles, ce qui simplifie le prétraitement des données.

Comparaison avec d'autres cadres de stimulation

Bien que LightGBM, XGBoost et CatBoost soient toutes de puissantes bibliothèques de renforcement des gradients, elles présentent des différences essentielles :

  • Croissance de l'arbre : LightGBM utilise la croissance par feuille, tandis que XGBoost utilise généralement la croissance par niveau. CatBoost utilise des arbres de décision oblivides (symétriques).
  • Caractéristiques catégorielles : LightGBM et CatBoost ont une gestion intégrée des caractéristiques catégorielles, ce qui simplifie souvent les flux de travail par rapport à XGBoost qui nécessite généralement un codage à un seul coup ou un prétraitement similaire.
  • Vitesse et mémoire : LightGBM est souvent plus rapide et utilise moins de mémoire que XGBoost, en particulier sur les grands ensembles de données, grâce à GOSS et EFB. CatBoost est également compétitif, excellant particulièrement dans les performances de traitement des caractéristiques catégorielles.

Le choix entre les deux dépend souvent des caractéristiques spécifiques du jeu de données et des exigences du projet.

Applications dans le monde réel

Les points forts de LightGBM le rendent adapté à diverses applications traitant de données structurées ou tabulaires :

  1. Détection des fraudes : Dans le domaine de la finance, LightGBM peut rapidement traiter de grandes quantités de données de transaction pour identifier les activités potentiellement frauduleuses en temps quasi réel, en tirant parti de sa vitesse et de sa précision. Cela s'aligne sur les tendances plus larges de l'IA dans la finance.
  2. Prédiction du taux de clics (CTR) : Les plateformes de publicité en ligne utilisent LightGBM pour prédire la probabilité que les utilisateurs cliquent sur les publicités, ce qui permet d'optimiser le placement des publicités et la génération de revenus en fonction des données de comportement des utilisateurs à grande échelle. Tu peux trouver des exemples de son utilisation dans les concours Kaggle.
  3. Maintenance prédictive : Analyser les données des capteurs des machines industrielles pour prédire les défaillances potentielles, ce qui permet de programmer la maintenance de manière proactive et de réduire les temps d'arrêt. Cet aspect est crucial dans des domaines tels que l 'IA dans la fabrication.
  4. Aide au diagnostic médical : Aide à l'analyse des données des patients (informations cliniques structurées) pour prédire le risque de maladie ou les résultats, contribuant ainsi à l'IA dans les soins de santé.

Bien que LightGBM excelle avec les données tabulaires, il se distingue des modèles tels que Ultralytics YOLOqui sont conçus pour des tâches de vision artificielle telles que la détection d'objets et la segmentation d'images sur des données d'images non structurées. Des outils comme Ultralytics HUB aident à gérer le cycle de vie de ces modèles de vision par ordinateur. LightGBM reste un outil essentiel pour les problèmes classiques de ML impliquant des ensembles de données structurés.

Tout lire