Glossaire

Validation croisée

Découvre la puissance de la validation croisée dans l'apprentissage automatique pour améliorer la précision des modèles, empêcher le surajustement et garantir des performances robustes.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La validation croisée est une méthode statistique utilisée pour évaluer les performances et la capacité de généralisation des modèles d'apprentissage automatique (ML). Au lieu de diviser les données une seule fois en ensembles de formation et de test, la validation croisée divise systématiquement les données en plusieurs sous-ensembles, ou "plis". Le modèle est formé sur certains plis et testé sur le pli restant, et ce processus est répété plusieurs fois, avec un pli différent retenu pour le test à chaque fois. Cette approche fournit une estimation plus solide de la façon dont le modèle est susceptible de fonctionner sur des données inédites par rapport à une seule répartition formation-test, ce qui permet d'éviter des problèmes tels que l'ajustement excessif.

Comment fonctionne la validation croisée

Le type de validation croisée le plus courant est la validation croisée K-Fold. Voici une description simplifiée du processus :

  1. Mélange l'ensemble des données : Mélange aléatoirement l'ensemble des données pour s'assurer que les points de données sont distribués sans biais d'ordre inhérent.
  2. Diviser en plis : Divise l'ensemble de données en "K" plis de taille égale (ou presque). Un choix courant pour K est 5 ou 10.
  3. Formation itérative et validation :
    • Sélectionne un pli comme données de validation.
    • Entraîne le modèle sur les K-1 plis restants(données d'entraînement).
    • Évalue les performances du modèle (par exemple, la précision) sur le pli de validation retenu.
    • Répète ce processus K fois, en utilisant chaque pli exactement une fois comme ensemble de validation.
  4. Performance moyenne : Calcule la moyenne des scores de performance obtenus à chaque itération. Ce score moyen fournit une estimation plus fiable des performances de généralisation du modèle.

Les bibliothèques populaires comme Scikit-learn fournissent des implémentations efficaces de diverses techniques de validation croisée.

Pourquoi utiliser la validation croisée ?

La validation croisée est une technique fondamentale dans l'évaluation des modèles pour plusieurs raisons :

  • Estimation fiable des performances : En faisant la moyenne des résultats sur plusieurs fractionnements, il donne une estimation moins biaisée de la performance du modèle sur de nouvelles données par rapport à un seul fractionnement formation/validation.
  • Utilisation efficace des données : Il permet d'utiliser presque toutes les données à la fois pour la formation et la validation à travers différentes itérations, ce qui est particulièrement utile pour les petits ensembles de données.
  • Sélection et réglage des modèles : Elle est cruciale pour comparer différents modèles ou régler les hyperparamètres, en aidant à sélectionner la configuration qui généralise le mieux.
  • Détection du surajustement et du sous-ajustement : Il permet d'identifier si un modèle est trop complexe (overfitting) ou trop simple(underfitting) en observant les variations de performance sur différents plis.

Validation croisée vs. division simple de la formation et de la validation

Alors qu'une simple division formation/validation consiste à mettre de côté une partie des données uniquement pour la validation, la validation croisée utilise les données de manière plus efficace. Dans le cas d'une division simple, la mesure des performances dépend fortement des points de données spécifiques qui se retrouvent dans l'ensemble de validation. La validation croisée atténue cette dépendance en veillant à ce que chaque point de données soit utilisé pour la validation exactement une fois, ce qui conduit à une évaluation plus stable et plus fiable. Ultralytics offre des conseils sur la mise en œuvre de la validation croisée K-Fold avec Ultralytics YOLO.

Applications dans le monde réel

La validation croisée est largement utilisée dans divers domaines de l'IA et de la ML :

  1. Analyse d'images médicales : Lors du développement d'un modèle d'IA pour détecter les tumeurs dans les scanners à l'aide de techniques telles que la segmentation d'images, la validation croisée permet de s'assurer que le modèle fonctionne de manière fiable sur des scanners provenant de différents patients et équipements, ce qui permet d'avoir confiance avant le déploiement clinique. Cela implique de s'entraîner et de tester sur différents sous-ensembles de données d'imagerie médicale de patients.
  2. Détection d'objets dans les systèmes autonomes : Pour une Ultralytics YOLO formé pour la détection d'objets (par exemple, l'identification des piétons pour les véhicules autonomes), la validation croisée K-Fold peut évaluer la capacité du modèle à se généraliser dans diverses conditions environnementales (éclairage, météo) présentes dans l'ensemble de données avant le déploiement du modèle. Des plateformes comme Ultralytics HUB peuvent faciliter la gestion de ces processus de formation.

En fournissant une évaluation robuste de la généralisation des modèles, la validation croisée est un outil indispensable pour construire des systèmes d'IA fiables et efficaces.

Tout lire