Glossaire

Forêt aléatoire

Découvre comment Random Forest, un puissant algorithme d'apprentissage par ensemble, excelle dans la classification, la régression et les applications d'IA du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Random Forest est un algorithme d'apprentissage machine (ML) polyvalent et puissant, largement utilisé pour les tâches de classification et de régression. Il appartient à la famille des méthodes d'apprentissage d'ensemble, qui combinent plusieurs modèles individuels pour obtenir une meilleure précision de prédiction et une plus grande robustesse que ce qu'un modèle unique pourrait obtenir à lui seul. Proposé par Leo Breiman, il s'appuie sur le concept des arbres de décision en introduisant le caractère aléatoire.

Comment fonctionnent les forêts aléatoires

À la base, une forêt aléatoire fonctionne en construisant une multitude d'arbres de décision pendant la phase de formation. Chaque arbre est formé sur un sous-ensemble aléatoire différent des données de formation (une technique appelée bagging ou agrégation bootstrap) et n'utilise qu'un sous-ensemble aléatoire de caractéristiques pour décider de la meilleure division à chaque nœud. Ce double caractère aléatoire permet de décorréler les arbres, ce qui rend l'ensemble plus robuste.

Pour un problème de classification, la sortie finale de la forêt aléatoire est la classe sélectionnée par le vote majoritaire de tous les arbres individuels. Pour un problème de régression, la prédiction est généralement la prédiction moyenne des arbres individuels. Cette approche tire parti de la "sagesse de la foule", où un ensemble diversifié de modèles produit collectivement des prédictions plus précises et réduit considérablement le risque de surajustement, un problème courant avec les arbres de décision uniques.

Caractéristiques principales

Plusieurs aspects clés définissent une forêt aléatoire :

  • Méthode d'ensemble : Combine les prédictions de plusieurs arbres de décision.
  • L'échantillonnage (bagging) : Chaque arbre est formé sur un échantillon bootstrap de l'ensemble de données original. En savoir plus sur l'agrégation bootstrap (Bagging).
  • Caractère aléatoire des caractéristiques : À chaque division de nœud, seul un sous-ensemble aléatoire de caractéristiques est pris en compte.
  • Variance réduite : La moyenne des prédictions sur de nombreux arbres décorrélés réduit la variance globale du modèle.
  • Importance des caractéristiques : Peut fournir des estimations de l'importance des caractéristiques, indiquant quelles variables d'entrée sont les plus influentes dans les prédictions.

Applications de la forêt aléatoire

Les forêts aléatoires sont appliquées dans un grand nombre de domaines en raison de leur précision, de leur robustesse et de leur facilité d'utilisation. Voici quelques exemples concrets :

  1. Finance : Utilisé intensivement pour des tâches telles que l'évaluation du crédit et la détection des fraudes, où l'identification de modèles complexes dans les données financières est cruciale.
  2. Santé : Appliquée dans des domaines tels que la prédiction de maladies à partir des dossiers des patients et même dans l'analyse d'images médicales pour identifier les anomalies, bien que l'apprentissage profond domine souvent dans les tâches basées sur l'image. Explore les solutions d'IA dans le domaine de la santé.

Technologies et outils

Plusieurs bibliothèques populaires d'apprentissage automatique proposent des implémentations de l'algorithme Random Forest. Scikit-learn, une bibliothèque Python très utilisée, propose une implémentation complète de Random Forest avec des options pour le réglage des hyperparamètres. D'autres bibliothèques comme XGBoost et LightGBM fournissent des implémentations efficaces de méthodes d'ensemble connexes basées sur des arbres, souvent optimisées pour la vitesse et les performances sur de grands ensembles de données.

Si les Random Forests excellent avec les données structurées ou tabulaires, ils sont généralement moins adaptés aux tâches impliquant des données non structurées comme les images, par rapport aux modèles de Deep Learning. Pour les tâches de pointe en vision par ordinateur comme la détection d'objets ou la segmentation d'images, des modèles comme Ultralytics YOLO sont généralement préférés. Tu peux former et déployer les modèles YOLO à l'aide de plateformes comme Ultralytics HUB, qui simplifie le cycle de vie MLOps pour les projets d'IA de vision. Explore diverses solutionsUltralytics utilisant les modèles YOLO pour des applications réelles.

Tout lire