Glossaire

Validation croisée

Découvre la puissance de la validation croisée dans l'apprentissage automatique pour améliorer la précision des modèles, empêcher le surajustement et garantir des performances robustes.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La validation croisée est une technique cruciale de l'apprentissage machine (ML) utilisée pour évaluer la capacité d'un modèle à se généraliser à de nouvelles données inédites. Elle permet de s'assurer que le modèle ne se contente pas de mémoriser les données d'apprentissage, un problème connu sous le nom de surajustement, mais qu'il apprend des modèles qui s'appliquent plus largement. Cette technique consiste à diviser les données disponibles en plusieurs sous-ensembles, ou "plis". Le modèle est formé sur une partie des données et validé sur la partie restante, et ce processus est répété plusieurs fois avec différents sous-ensembles utilisés pour la formation et la validation.

Importance dans l'évaluation du modèle

La validation croisée fournit une estimation plus fiable des performances d'un modèle par rapport à l'utilisation d'un seul fractionnement formation-test. En formant et en validant le modèle sur différents sous-ensembles de données, elle permet de réduire le risque que le modèle ne fonctionne bien que sur un ensemble de données spécifique en raison du hasard. Ceci est particulièrement important lorsque l'ensemble de données est limité, car cela maximise l'utilisation des données disponibles à la fois pour la formation et la validation. Cette méthode aide également à régler les hyperparamètres, ce qui permet aux praticiens de sélectionner les meilleurs paramètres qui produisent des performances optimales sur différents plis. Les connaissances acquises grâce à la validation croisée peuvent guider les améliorations apportées à la conception des modèles et à la formation, ce qui permet d'obtenir des modèles plus robustes et plus fiables.

Types de validation croisée

Il existe plusieurs types de méthodes de validation croisée, chacune adaptée à des scénarios différents :

Validation croisée K-Fold

Dans la validation croisée K-Fold, l'ensemble de données est divisé en K plis de taille égale. Le modèle est formé sur K-1 plis et validé sur le pli restant. Ce processus est répété K fois, chaque pli servant une fois d'ensemble de validation. La mesure des performances, telle que la précision ou le score F1, est ensuite calculée en faisant la moyenne des K itérations pour fournir une évaluation complète des performances du modèle.

Validation croisée K-Fold stratifiée

Le K-Fold stratifié est une variante de la validation croisée K-Fold qui garantit que chaque pli conserve la même proportion de classes que l'ensemble de données original. Cela est particulièrement utile pour les ensembles de données déséquilibrés dans lesquels une classe est nettement plus nombreuse que les autres. En préservant la répartition des classes dans chaque pli, le K-Fold stratifié permet de s'assurer que les performances du modèle ne sont pas faussées par le déséquilibre des classes.

Validation croisée sans interruption (LOOCV)

Dans la validation croisée Leave-One-Out, chaque point de données est utilisé comme ensemble de validation une fois, tandis que le reste des données est utilisé pour la formation. Cette méthode est coûteuse en termes de calcul, mais elle permet une évaluation approfondie, en particulier pour les petits ensembles de données. Elle est particulièrement utile lorsque l'ensemble de données est très petit et que chaque point de données est crucial pour la formation et la validation.

Applications dans les projets d'IA/ML du monde réel

La validation croisée est largement utilisée dans diverses applications du monde réel pour garantir la fiabilité et la robustesse des modèles d'apprentissage automatique. Par exemple :

  1. Diagnostic médical: Dans le domaine du diagnostic médical, la validation croisée peut être utilisée pour évaluer les performances des modèles qui prédisent les maladies à partir des données des patients. En entraînant et en validant le modèle sur différents sous-ensembles de données de patients, les chercheurs peuvent s'assurer que le modèle est précis et fiable sur diverses populations de patients. Cela est crucial pour prendre des décisions médicales éclairées et améliorer les résultats pour les patients. En savoir plus sur l'IA dans le domaine de la santé.

  2. Détection des fraudes: Dans le secteur de la finance, la validation croisée aide à construire des systèmes robustes de détection des fraudes. En formant des modèles sur des données de transactions historiques et en les validant sur différents sous-ensembles, les institutions financières peuvent s'assurer que leurs modèles identifient avec précision les activités frauduleuses tout en minimisant les faux positifs. Cela permet de protéger les clients et de maintenir l'intégrité des systèmes financiers. Explore d'autres points de vue sur l'IA dans la finance.

Validation croisée et autres techniques d'évaluation

Bien que la validation croisée soit une technique puissante, il est essentiel de comprendre en quoi elle diffère des autres méthodes d'évaluation :

  • Séparation formation-test: Dans une simple division formation-test, les données sont divisées en deux parties : l'une pour la formation et l'autre pour le test. Bien que cette méthode soit plus rapide et plus simple, elle peut entraîner une grande variance dans les estimations de performance si l'ensemble de test n'est pas représentatif de l'ensemble des données. La validation croisée atténue ce problème en utilisant plusieurs divisions formation-test. Renseigne-toi sur les données de formation, les données de validation et les données de test pour mieux comprendre les divisions de données.

  • Bootstrapping: Le bootstrapping consiste à échantillonner de façon répétée l'ensemble de données avec remplacement pour créer plusieurs ensembles d'entraînement. Bien qu'il soit utile pour estimer la variabilité des performances des modèles, il peut nécessiter beaucoup de calculs et ne pas être aussi efficace que la validation croisée pour la sélection des modèles.

  • Méthode de retenue: Semblable à la division formation-test, la méthode hold-out consiste à mettre de côté une partie des données pour la validation. Cependant, contrairement à la validation croisée, cette méthode n'implique pas de multiples itérations de formation et de validation, ce qui peut rendre l'estimation des performances moins fiable.

Outils et bibliothèques

Plusieurs outils et bibliothèques soutiennent la mise en œuvre de la validation croisée dans les projets d'apprentissage automatique. Sur Python, la bibliothèque scikit-learn fournit des fonctions complètes pour diverses techniques de validation croisée, y compris K-Fold et K-Fold stratifié. En outre, des cadres de travail tels que TensorFlow et PyTorch offrent des utilitaires pour intégrer la validation croisée dans les pipelines de formation de modèles. Pour les utilisateurs de Ultralytics YOLO , des conseils détaillés sur la mise en œuvre de la validation croisée de K-Fold sont disponibles dans la documentation sur la validation croisée de K-Fold.

Tout lire