Glossaire

Validation croisée

Découvre la puissance de la validation croisée dans l'apprentissage automatique pour améliorer la précision des modèles, empêcher le surajustement et garantir des performances robustes.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La validation croisée est une technique statistique cruciale utilisée dans l'apprentissage automatique (ML) pour évaluer la capacité d'un modèle à se généraliser à un ensemble de données indépendant. Au lieu d'une division unique des données en ensembles de formation et de test, la validation croisée implique la partition des données en plusieurs sous-ensembles, ou "plis". Le modèle est formé de manière itérative sur certains ensembles et évalué sur les autres. Ce processus fournit une estimation plus fiable des performances du modèle sur des données inédites qu'une simple répartition formation/test, ce qui réduit considérablement le risque de surajustement, lorsqu'un modèle apprend trop bien les données de formation, y compris le bruit qu'elles contiennent.

Comment fonctionne la validation croisée

La méthode la plus utilisée est la validation croisée K-Fold. Le processus comprend les étapes suivantes :

  1. Mélange et division : L'ensemble des données est mélangé de façon aléatoire et divisé en "K" plis de taille égale (sous-ensembles).
  2. Formation itérative et validation : Le modèle est entraîné K fois. À chaque itération 'i' (de 1 à K) :
  3. Agrégation des performances : La mesure de performance enregistrée dans chacune des K itérations est moyennée pour produire une estimation unique et plus robuste de la capacité de généralisation du modèle.

De nombreuses bibliothèques ML populaires, telles que Scikit-learn, proposent des implémentations efficaces de diverses stratégies de validation croisée, notamment K-Fold stratifié (essentiel pour les ensembles de données déséquilibrés) et Leave-One-Out CV.

Pourquoi utiliser la validation croisée ?

La validation croisée est la pierre angulaire d'une évaluation fiable des modèles pour plusieurs raisons essentielles :

  • Des estimations de performance plus fiables : En faisant la moyenne des résultats sur plusieurs ensembles de validation, la CV réduit la variance associée à une seule division train/test, ce qui donne une mesure plus stable de la façon dont le modèle pourrait fonctionner dans la pratique. Cela favorise la reproductibilité dans la recherche.
  • Utilisation efficace des données : Il fait un meilleur usage des ensembles de données limités, car chaque point de données sert à la fois de données d'entraînement et de validation dans les différents plis. Ceci est particulièrement avantageux lorsque la collecte de données est coûteuse ou difficile.
  • Détection du surajustement/sous-ajustement : Elle permet d'identifier les modèles trop complexes (overfitting) ou trop simples(underfitting) en révélant les écarts entre les performances d'entraînement et les performances moyennes de validation.
  • Réglage robuste des hyperparamètres : CV fournit une base plus fiable pour la sélection des hyperparamètres optimaux. Différents ensembles d'hyperparamètres peuvent être évalués sur la base de leur performance moyenne validée par croisement, ce qui permet d'obtenir des modèles avec une meilleure généralisation. Ultralytics propose des outils pour le réglage des hyperparamètres qui peuvent intégrer les principes de la CV.

Validation croisée vs. division simple de la formation et de la validation

Une simple division formation/validation divise les données une fois : une partie pour la formation, une autre pour la validation. Bien qu'elle soit facile à mettre en œuvre, son principal inconvénient est que l'évaluation des performances dépend fortement des points de données spécifiques qui tombent dans l'ensemble de validation. Un ensemble de validation particulièrement "facile" ou "difficile" peut conduire à des estimations de performance trop optimistes ou pessimistes.

La validation croisée permet de surmonter ce problème en utilisant systématiquement différents sous-ensembles pour la validation, en s'assurant que chaque point de données contribue exactement une fois au processus d'évaluation. Cela permet d'obtenir une évaluation plus stable et plus fiable de la robustesse du modèle. Il est important de noter qu'un dernier ensemble de données de test, qui n'a pas été vu pendant la formation et le réglage basé sur la CV, doit toujours être réservé à l'évaluation finale du modèle choisi. Ultralytics fournit des conseils détaillés sur la mise en œuvre de la validation croisée K-Fold avec Ultralytics YOLO.

Applications dans le monde réel

La validation croisée est indispensable pour construire des systèmes d'IA fiables dans divers domaines :

  1. Analyse d'images médicales : Lors du développement d'un réseau neuronal convolutif (CNN) pour l'analyse d'images médicales, comme la détection de tumeurs dans les scanners cérébraux à l'aide d'ensembles de données tels que l'ensemble de données sur les tumeurs cérébrales, la CV est utilisée pour évaluer rigoureusement la précision diagnostique et la généralisation du modèle sur diverses données de patients avant d'envisager des essais cliniques ou de demander une approbation réglementaire (par exemple, auprès de la FDA).
  2. Véhicules autonomes : Pour les modèles de détection d'objets comme Ultralytics YOLO utilisés dans les véhicules autonomes, la CV permet de garantir des performances fiables dans la détection des piétons, des cyclistes et d'autres véhicules dans diverses conditions environnementales (éclairage, météo, types de routes) souvent présentes dans des ensembles de données complexes comme Argoverse. Cette évaluation robuste, souvent mesurée par des métriques comme la précision moyenne (mAP), est essentielle avant le déploiement de modèles dans des systèmes critiques pour la sécurité, comme ceux des solutions d'IA dans l'automobile.

D'autres applications comprennent l'évaluation de modèles pour la segmentation d'images, les tâches de traitement du langage naturel (NLP) comme l'analyse des sentiments, et l'évaluation des risques dans la modélisation financière. Les plateformes comme Ultralytics HUB intègrent ou facilitent souvent ces techniques d'évaluation pour rationaliser le cycle de vie du développement.

Tout lire