Glossaire

Données de validation

Optimise les modèles d'apprentissage automatique avec des données de validation pour éviter le surajustement, régler les hyperparamètres et garantir des performances robustes et réelles.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les données de validation sont une partie cruciale du processus d'apprentissage automatique, utilisées pour affiner les performances d'un modèle et éviter l'ajustement excessif. Elles servent de contrôle pendant la formation, en garantissant que le modèle se généralise bien à des données inédites. En évaluant le modèle sur les données de validation, les praticiens peuvent prendre des décisions éclairées sur l'architecture du modèle et les hyperparamètres, ce qui permet d'obtenir des systèmes d'IA plus robustes et plus fiables.

Qu'est-ce que les données de validation ?

Les données de validation sont un sous-ensemble de l'ensemble de données original mis de côté pendant la phase de formation du modèle. Elles sont utilisées pour évaluer les performances d'un modèle d'apprentissage automatique pendant la formation. Contrairement aux données de formation, à partir desquelles le modèle apprend directement, les données de validation fournissent un point d'évaluation indépendant. Cela permet de contrôler la capacité de généralisation du modèle, c'est-à-dire sa capacité à fonctionner avec précision sur de nouvelles données inédites. L'ensemble de validation est distinct des données de test, qui ne sont utilisées qu'à la toute fin du processus de développement du modèle pour fournir une évaluation finale et impartiale du modèle formé.

Importance des données de validation

Les données de validation jouent un rôle primordial dans le réglage des hyperparamètres et la sélection des modèles. Pendant la formation, un modèle d'apprentissage automatique peut être ajusté en fonction de ses performances sur l'ensemble de validation. Par exemple, si les performances du modèle sur l'ensemble de validation commencent à se dégrader alors qu'elles continuent à s'améliorer sur l'ensemble de formation, c'est un signe de surajustement. Dans ce cas, des ajustements comme la régularisation ou la couche d'abandon peuvent être appliqués et leur efficacité évaluée à l'aide des données de validation. Des techniques comme la validation croisée K-Fold peuvent également être employées pour tirer le meilleur parti de données limitées pour la formation et la validation. Le suivi des mesures de validation telles que l'exactitude ou la précision moyenne (mAP) aide à décider quand arrêter la formation, souvent mis en œuvre par le biais d'un arrêt anticipé pour éviter le surajustement et économiser les ressources informatiques.

Données de validation vs. données de formation et de test

Dans les flux de travail d'apprentissage automatique, les données sont généralement divisées en trois ensembles : formation, validation et test.

  • Données d'apprentissage: Il s'agit des données à partir desquelles le modèle apprend. Elles sont utilisées pour ajuster le modèle weights and biases afin de minimiser la fonction de perte.
  • Données de validation: Utilisées pendant la formation pour évaluer les performances du modèle et régler les hyperparamètres. Elles permettent d'éviter le surajustement et guident la sélection du modèle.
  • Données de test: Utilisées uniquement après que le modèle a été entièrement formé pour fournir une estimation finale et impartiale de la performance du modèle sur des données non vues. Elles simulent des scénarios du monde réel et évaluent la capacité de généralisation du modèle.

La principale différence réside dans leur utilisation. Les données de formation servent à l'apprentissage, les données de validation servent à la mise au point et au contrôle pendant la formation, et les données de test servent à l'évaluation finale après la formation. L'utilisation d'ensembles de données distincts garantit une évaluation impartiale des performances réelles du modèle. Pour une compréhension plus approfondie du prétraitement des données pour l'apprentissage automatique, les ressources sur le prétraitement des données peuvent s'avérer précieuses.

Applications des données de validation

Les données de validation sont essentielles dans toutes les applications d'apprentissage automatique, y compris les Ultralytics YOLO modèles. Voici quelques exemples :

  1. Détection d'objets dans les véhicules autonomes: Lors de la formation d'un modèle de détection d'objets comme Ultralytics YOLO pour les véhicules autonomes, les données de validation, composées d'images et de vidéos non utilisées lors de la formation, permettent de s'assurer que le modèle détecte avec précision les piétons, les panneaux de signalisation et les autres véhicules dans des conditions de conduite diverses et inédites. En surveillant les performances sur les données de validation, les ingénieurs peuvent régler le modèle pour qu'il se généralise bien à de nouveaux scénarios routiers, ce qui est essentiel pour la sécurité. Par exemple, pendant YOLOv8 formation du modèle, les mesures de validation sont suivies en permanence pour optimiser les hyperparamètres du modèle.

  2. Analyse d'images médicales: Dans l'analyse d'images médicales pour le diagnostic de maladies, les données de validation sont utilisées pour s'assurer que les modèles d'IA identifient avec précision les anomalies (comme les tumeurs ou les lésions) dans les scans médicaux sans s'adapter de manière excessive aux cas d'entraînement. Par exemple, lors de l'entraînement d'un modèle pour détecter les tumeurs cérébrales à l'aide d'images IRM, un ensemble de validation distinct de scans IRM permet d'affiner la capacité du modèle à se généraliser aux nouveaux scans des patients, améliorant ainsi la fiabilité du diagnostic. Ce processus est crucial dans des applications telles que la détection des tumeurs, où la précision du modèle a un impact direct sur les soins prodigués aux patients.

En utilisant correctement les données de validation, les praticiens de l'apprentissage automatique peuvent développer des modèles qui sont non seulement précis sur les données d'entraînement, mais aussi robustes et fiables dans les applications du monde réel.

Tout lire