Glossaire

Données de test

Découvre l'importance des données de test dans l'IA, leur rôle dans l'évaluation des performances des modèles, la détection du surajustement et la garantie de la fiabilité dans le monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les données de test sont un élément crucial du cycle de développement de l'apprentissage automatique (Machine Learning, ML). Elles désignent un ensemble de données indépendant, distinct des ensembles de formation et de validation, utilisé exclusivement pour l'évaluation finale des performances d'un modèle une fois les phases de formation et de réglage terminées. Cet ensemble de données contient des points de données que le modèle n'a jamais rencontrés auparavant, fournissant une évaluation impartiale de la façon dont le modèle est susceptible de fonctionner sur de nouvelles données du monde réel. L'objectif principal de l'utilisation des données de test est d'estimer la capacité de généralisation du modèle, c'est-à-dire sa capacité à fonctionner avec précision sur des données d'entrée inédites.

Importance des données de test

La véritable mesure du succès d'un modèle ML réside dans sa capacité à traiter des données sur lesquelles il n'a pas été explicitement formé. Les données de test servent de point de contrôle final, offrant une évaluation objective des performances du modèle. Sans un ensemble de test dédié, le risque d'overfitting est élevé : un modèle apprend trop bien les données d'entraînement, y compris son bruit et ses modèles spécifiques, mais ne parvient pas à se généraliser à de nouvelles données. L'utilisation de données de test permet de s'assurer que les mesures de performance rapportées reflètent les capacités attendues du modèle dans le monde réel, ce qui renforce la confiance avant le déploiement du modèle. Cette dernière étape d'évaluation est essentielle pour comparer de manière fiable différents modèles ou approches, comme par exemple YOLOv8 par rapport à YOLOv9.

Caractéristiques principales

Pour être efficaces, les données de test doivent posséder certaines caractéristiques :

  • Indépendance : Il doit être strictement séparé des données utilisées pour la formation et la validation. Le modèle ne doit jamais voir les données de test pendant une partie quelconque de la formation ou du processus de réglage des hyperparamètres.
  • Représentativité : Il doit refléter avec précision les caractéristiques et la distribution des données du monde réel que le modèle rencontrera en production. Cela inclut des types d'entrées similaires, des variations et des cas limites potentiels. Les meilleures pratiques en matière de collecte et d'annotation des données sont essentielles à cet égard.
  • Taille suffisante : Bien que souvent plus petit que l'ensemble de formation, l'ensemble de test doit être suffisamment grand pour fournir des résultats d'évaluation statistiquement significatifs. Une taille insuffisante peut conduire à des estimations de performances peu fiables, comme le soulignent les ML Rules deGoogle.

Données de test vs. données de formation et de validation

Il est essentiel de distinguer les données de test des autres fractionnements de données utilisés en ML :

  • Données de formation: Il s'agit de la plus grande partie de l'ensemble de données, utilisée directement pour former le modèle en ajustant ses paramètres internes ou ses poids.
  • Données de validation: Ce sous-ensemble distinct est utilisé pendant le processus de formation pour ajuster les hyperparamètres du modèle (comme le taux d'apprentissage ou les choix d'architecture du réseau) et prendre des décisions sur le processus de formation lui-même (par exemple, l'arrêt précoce). Bien qu'il ne soit pas vu pendant les mises à jour des paramètres, il influence indirectement le modèle final par le biais de la sélection des hyperparamètres. Tu trouveras plus de détails dans notre guide sur l'évaluation et le réglage fin des modèles.
  • Données de test : Cet ensemble de données n'est utilisé qu'une seule fois après que le modèle a été entièrement formé et réglé, fournissant ainsi l'évaluation finale et impartiale des performances. Il ne doit pas influencer les décisions de formation ou de réglage. Les ensembles de données de référence standard tels que COCO sont souvent accompagnés de tests prédéfinis pour une évaluation standardisée.

Exemples concrets

  1. La conduite autonome : Une Ultralytics YOLO modèle formé à la détection d'objets (détection de voitures, de piétons, de feux de circulation) serait évalué à l'aide d'un ensemble de test composé de séquences routières enregistrées dans des conditions (météo, heure de la journée, lieux) non incluses dans les ensembles de formation ou de validation. Cela permet de s'assurer de la fiabilité du modèle dans divers scénarios de conduite dans le monde réel, ce qui est crucial pour l'IA dans les voitures auto-conduites.
  2. Diagnostic médical : Un modèle développé pour l'analyse d'images médicales, comme la détection de tumeurs aux rayons X à l'aide d'ensembles de données tels que le Brain Tumor Detection Dataset, serait testé sur un tout nouvel ensemble d'images de patients provenant d'hôpitaux ou de scanners différents de ceux utilisés pour la formation et la validation. Cela permet de confirmer sa précision diagnostique avant une potentielle utilisation clinique, comme nous l'avons évoqué dans Le rôle de l'IA dans la recherche clinique.

Évaluer les performances sur la base de données de test

Les performances sur l'ensemble de test sont généralement mesurées à l'aide de paramètres pertinents pour la tâche, tels que l'exactitude, la précision, le rappel, le score F1 ou la précision moyenne (mAP ) pour la détection d'objets. Ces métriques, calculées sur les données de test non vues, fournissent l'estimation la plus réaliste des performances du modèle en production. Tu peux en savoir plus sur ces mesures dans notre guide sur les mesures de performance deYOLO . Des plateformes comme Ultralytics HUB facilitent le suivi de ces métriques pendant la phase d'évaluation. Les meilleures pratiques en matière de tests de modèles soulignent l'importance de cette dernière étape d'évaluation.

Tout lire