Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Données de test

Découvrez le rôle essentiel des données de test dans l'apprentissage automatique. Apprenez à évaluer les performances Ultralytics à l'aide d'ensembles de données non biaisés afin de garantir une précision réelle.

Les données de test constituent un sous-ensemble spécifique d'un ensemble de données plus vaste, strictement réservé à l'évaluation des performances finales d'un modèle d'apprentissage automatique (ML). Contrairement aux données utilisées lors des phases d'apprentissage précédentes, les données de test restent totalement « invisibles » pour l'algorithme jusqu'à la toute fin du cycle de développement. Cette isolation est essentielle, car elle permet d'évaluer de manière impartiale la capacité d'un modèle de vision par ordinateur (CV) ou d'un autre système d'IA à généraliser de nouvelles entrées issues du monde réel. En simulant un environnement de production, les données de test aident les développeurs à vérifier que leur modèle a réellement appris les modèles sous-jacents plutôt que de simplement mémoriser les exemples d'entraînement .

Le rôle des données de test dans le cycle de vie du ML

Dans le flux de travail standard de l'apprentissage automatique, les données sont généralement divisées en trois catégories distinctes, chacune ayant un objectif unique. Comprendre la distinction entre ces divisions est essentiel pour construire des systèmes d'intelligence artificielle (IA) robustes.

  • Données d'entraînement: il s'agit de la plus grande partie de l'ensemble de données, utilisée pour enseigner au modèle. L'algorithme ajuste de manière itérative ses paramètres internes, ou pondérations, afin de minimiser les erreurs sur cet ensemble spécifique d' exemples.
  • Données de validation: ce sous-ensemble est fréquemment utilisé pendant le processus d'apprentissage pour ajuster les hyperparamètres et orienter les décisions relatives à l'architecture . Il sert de contrôle intermédiaire pour éviter le surapprentissage, qui se produit lorsqu'un modèle fonctionne bien sur les données d'apprentissage mais échoue sur de nouvelles données.
  • Données de test : il s'agit de l'« examen » final pour le modèle. Elles ne sont jamais utilisées pour mettre à jour les poids ou ajuster les paramètres. L'évaluation des données de test fournit des mesures de performance définitives, telles que la précision, le rappel et la précision moyenne (mAP), que les parties prenantes utilisent pour décider si un modèle est prêt à être déployé.

La gestion adéquate de ces divisions est souvent facilitée par des outils tels que Ultralytics , qui peut automatiquement organiser les ensembles de données téléchargés dans ces catégories essentielles afin de garantir une évaluation rigoureuse des modèles.

Importance d'une évaluation impartiale

La principale valeur des données de test réside dans leur capacité à detect les problèmes de biais et de variance des ensembles de données. Si un modèle atteint une précision de 99 % sur les données d'entraînement, mais seulement 60 % sur les données de test, cela indique une variance élevée (surajustement). À l'inverse, de mauvaises performances sur les deux suggèrent un sous-ajustement.

L'utilisation d'un ensemble de tests désigné respecte les principes scientifiques de reproductibilité et d'objectivité. Sans un ensemble de tests vierge , les développeurs risquent d'« enseigner pour le test », divulguant ainsi des informations de la phase d'évaluation vers la phase de formation, un phénomène connu sous le nom de fuite de données. Il en résulte des estimations de performances trop optimistes qui s'effondrent lorsque le modèle est confronté à des données réelles.

Applications concrètes

Les données de test sont essentielles dans tous les secteurs qui utilisent l'IA afin de garantir la sécurité et la fiabilité avant la mise en service des systèmes.

  • Conduite autonome : dans le cadre du développement de véhicules autonomes, les données d'entraînement peuvent comprendre des millions de kilomètres parcourus sur autoroute par temps clair. Les données de test doivent toutefois inclure des scénarios rares et difficiles, tels que de fortes chutes de neige, des obstacles soudains ou des panneaux de signalisation confus, que la voiture n'a jamais explicitement « vus » pendant l'entraînement. Cela garantit que le système de détection d'objets peut réagir en toute sécurité dans des environnements imprévisibles.
  • Diagnostic médical : lors de la création d'un modèle de détection des tumeurs en imagerie médicale, l'ensemble de données d'apprentissage peut provenir de la base de données d'un hôpital spécifique. Afin de vérifier que le modèle est robuste et sûr pour une utilisation générale, les données de test doivent idéalement comprendre des scans provenant de différents hôpitaux, réalisés avec différents appareils et représentant une population de patients diversifiée. Cette validation externe confirme que l'IA n'est pas biaisée en faveur d'un type d'équipement ou d'une population spécifique.

Évaluation des performances à l'aide du code

L'utilisation de la ultralytics package, vous pouvez facilement évaluer les performances d'un modèle sur un ensemble de données réservé. Bien que le val Le mode est souvent utilisé pour la validation pendant l'entraînement, mais il peut également être configuré pour s'exécuter sur une division de test spécifique définie dans votre Configuration YAML de l'ensemble de données.

Voici comment évaluer un modèle YOLO26 pré-entraîné pour obtenir des métriques telles que mAP50:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Evaluate the model's performance on the validation set
# (Note: In a strict testing workflow, you would point 'data'
# to a YAML that defines a specific 'test' split and use split='test')
metrics = model.val(data="coco8.yaml")

# Print a specific metric, e.g., mAP at 50-95% IoU
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")

Ce processus génère des mesures complètes, permettant aux développeurs de comparer objectivement différentes architectures, telles que YOLO26 et YOLO11, et de s'assurer que la solution choisie répond aux objectifs définis pour le projet. Des tests rigoureux constituent la dernière étape de contrôle visant à garantir le respect des normes de sécurité élevées en matière d' IA.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant