Optimise les modèles d'apprentissage automatique avec des données de validation pour éviter le surajustement, régler les hyperparamètres et garantir des performances robustes et réelles.
Les données de validation sont un élément crucial du cycle de développement du Machine Learning (ML). Il s'agit d'un sous-ensemble séparé de l'ensemble de données d'origine, distinct des données d'entraînement utilisées pour ajuster le modèle et des données de test utilisées pour l'évaluation finale. L'objectif principal des données de validation est de fournir une évaluation impartiale de l'ajustement d'un modèle sur l'ensemble de données d'apprentissage tout en réglant les hyperparamètres du modèle et en prenant des décisions sur l'architecture du modèle. Ce processus permet de sélectionner la meilleure configuration du modèle avant d'évaluer ses performances finales sur des données inédites.
Au cours du processus d'apprentissage du modèle, un modèle ML apprend des modèles à partir des données d'apprentissage. Cependant, évaluer le modèle uniquement sur ces données peut être trompeur, car le modèle pourrait simplement mémoriser les exemples d'entraînement, un phénomène connu sous le nom d'overfitting. Les données de validation servent de point de contrôle. En évaluant les performances du modèle sur cet ensemble distinct périodiquement au cours de la formation, les développeurs peuvent :
Comprendre la distinction entre les ensembles de données d'entraînement, de validation et de test est fondamental pour le développement de modèles robustes :
Une séparation adéquate, souvent gérée à l'aide d'outils comme Ultralytics HUB pour la gestion et la version des ensembles de données, garantit que les informations de l'ensemble de test ne "fuient" pas dans le processus de formation ou de sélection des modèles, ce qui conduirait à des estimations de performance trop optimistes.
Les données de validation sont indispensables pour le réglage des hyperparamètres. Les hyperparamètres sont des paramètres de configuration externes au modèle lui-même, définis avant le début du processus d'apprentissage. Les exemples incluent le taux d'apprentissage, le nombre de couches d'un réseau neuronal ou le type d'algorithme d'optimisation utilisé. Les développeurs forment plusieurs versions du modèle avec différentes combinaisons d'hyperparamètres, évaluent chacune d'entre elles sur l'ensemble de validation et sélectionnent la combinaison qui donne les meilleures performances. Cette recherche systématique peut être automatisée à l'aide de méthodes telles que la recherche par grille ou l'optimisation bayésienne, souvent facilitée par des plateformes intégrées aux outils MLOps.
Lorsque la quantité de données disponibles est limitée, une technique appelée validation croisée (plus précisément la validation croisée K-Fold) est souvent employée. Ici, les données d'apprentissage sont divisées en "K" sous-ensembles (plis). Le modèle est entraîné K fois, en utilisant à chaque fois K-1 plis pour l'entraînement et le pli restant comme ensemble de validation. La moyenne des performances est ensuite calculée sur l'ensemble des K essais. Cela permet d'obtenir une estimation plus solide des performances du modèle et de mieux utiliser les données limitées, comme l'explique le guideUltralytics K-Fold Cross-Validation.
En résumé, les données de validation sont la pierre angulaire de la construction de modèles d'intelligence artificielle (IA) fiables et performants. Elles permettent de régler efficacement les hyperparamètres, de sélectionner des modèles et de prévenir l'overfitting, en garantissant que les modèles se généralisent bien au-delà des données sur lesquelles ils ont été formés.