Optimise les modèles d'apprentissage automatique avec des données de validation pour éviter le surajustement, régler les hyperparamètres et garantir des performances robustes et réelles.
Les données de validation sont un élément crucial du cycle de vie du développement d'un modèle d'apprentissage automatique (ML). Il s'agit d'une partie séparée de ton ensemble de données, distincte des données d'entraînement utilisées pour ajuster initialement le modèle et des données de test utilisées pour l'évaluation finale. L'objectif principal des données de validation est de fournir une évaluation impartiale de l'ajustement d'un modèle sur l'ensemble de données d'entraînement tout en réglant les hyperparamètres du modèle et en prenant des décisions sur l'architecture du modèle lui-même. Ce processus permet de sélectionner la meilleure configuration du modèle avant d'évaluer ses performances finales sur des données inédites.
Pendant la phase d'apprentissage, un modèle de ML apprend des modèles à partir des données d'apprentissage. Cependant, le fait de simplement évaluer le modèle sur les mêmes données que celles à partir desquelles il a appris peut être trompeur, et entraîne souvent des estimations de performance trop optimistes en raison d'un surajustement - lorsque le modèle apprend trop bien les données d'apprentissage, y compris son bruit et ses bizarreries spécifiques, ce qui entrave sa capacité à se généraliser à de nouvelles données. Les données de validation servent de substitut aux données non vues pendant la formation. En évaluant les performances du modèle sur l'ensemble de validation à intervalles réguliers (par exemple, après chaque époque), les développeurs peuvent :
Il est fondamental de comprendre la distinction entre les ensembles de données de formation, de validation et de test :
L'utilisation d'un ensemble de validation dédié est essentielle pour construire des modèles ML robustes et fiables. Les principaux avantages sont les suivants :
Parfois, surtout avec des données limitées, un seul fractionnement de validation peut ne pas être représentatif. Des techniques comme la validation croisée permettent de remédier à ce problème. Dans la validation croisée K-Fold, les données d'apprentissage sont divisées en "k" sous-ensembles (plis). Le modèle est formé "k" fois, en utilisant à chaque fois un pli différent comme ensemble de validation et les k-1 plis restants pour la formation. La performance moyenne sur les 'k' plis de validation donne une estimation plus robuste de la capacité de généralisation du modèle. Tu peux trouver des implémentations dans des bibliothèques comme Scikit-learn.
Les données de validation sont indispensables pour guider le développement de modèles efficaces de vision par ordinateur et d'autres modèles de ML, en s'assurant qu'ils sont bien réglés et capables de se généraliser à de nouveaux défis au-delà de l'ensemble de données d'entraînement.