Optimisez les modèles d'apprentissage automatique à l'aide de données de validation pour éviter l'ajustement excessif, régler les hyperparamètres et garantir des performances solides dans le monde réel.
Les données de validation sont un échantillon de données retenu dans le processus de formation qui est utilisé pour fournir une évaluation impartiale de l'adaptation d'un modèle tout en ajustant ses hyperparamètres. Le rôle principal de l'ensemble de validation est de guider le développement d'un modèle d'apprentissage machine (ML) en offrant une évaluation fréquente et indépendante de ses performances. Cette boucle de rétroaction est essentielle pour construire des modèles qui non seulement fonctionnent bien sur les données qu'ils ont vues, mais qui se généralisent aussi efficacement à de nouvelles données non vues, un concept central pour créer des systèmes d'intelligence artificielle (IA) robustes.
L'objectif principal des données de validation est d'éviter l'ajustement excessif. Il y a surajustement lorsqu'un modèle apprend trop bien les données d'apprentissage, capturant le bruit et les détails qui ne s'appliquent pas aux nouvelles données, ce qui nuit à ses performances. En testant le modèle par rapport à l'ensemble de validation à intervalles réguliers (par exemple, après chaque période), les développeurs peuvent surveiller son erreur de généralisation. Si les performances sur les données d'apprentissage continuent de s'améliorer alors que les performances sur les données de validation stagnent ou se dégradent, il s'agit d'un signe évident de surajustement.
Ce processus d'évaluation est crucial pour le réglage des hyperparamètres. Les hyperparamètres sont des paramètres de configuration externes au modèle, tels que le taux d'apprentissage ou la taille du lot, qui ne sont pas appris à partir des données. L'ensemble de validation permet d'expérimenter différentes combinaisons d'hyperparamètres afin de trouver l'ensemble qui produit les meilleures performances. Ce processus itératif est au cœur de la sélection et de l'optimisation des modèles.
Dans un projet de ML typique, l'ensemble de données est divisé en trois sous-ensembles, et il est fondamental de comprendre leurs rôles distincts. Une approche courante de la division des données consiste à allouer 70 % à la formation, 15 % à la validation et 15 % au test.
Le maintien d'une séparation stricte, en particulier entre les ensembles de validation et de test, est essentiel pour évaluer avec précision les capacités d'un modèle et éviter le compromis biais-variance.
Lorsque la quantité de données disponibles est limitée, une technique appelée validation croisée (en particulier la validation croisée K-Fold) est souvent employée. Dans ce cas, les données d'apprentissage sont divisées en "K" sous-ensembles (plis). Le modèle est entraîné K fois, en utilisant à chaque fois K-1 plis pour l'entraînement et le pli restant comme ensemble de validation. La moyenne des performances est ensuite calculée sur l'ensemble des K essais. Cela permet d'obtenir une estimation plus robuste des performances du modèle et de mieux utiliser les données limitées, comme l'expliquent des ressources telles que la documentation scikit-learn et le guide Ultralytics K-Fold Cross-Validation.
En résumé, les données de validation sont la pierre angulaire de la construction de modèles d'IA fiables et performants avec des frameworks comme PyTorch et TensorFlow. Elles permettent de régler efficacement les hyperparamètres, de sélectionner les modèles et de prévenir l'overfitting, en s'assurant que les modèles se généralisent bien au-delà des données sur lesquelles ils ont été formés. Des plateformes comme Ultralytics HUB offrent des outils intégrés pour gérer efficacement ces ensembles de données.