Glossaire

Ensemble de données de référence (Benchmark Dataset)

Découvrez le rôle des ensembles de données de référence dans l'évaluation de l'IA. Découvrez comment Ultralytics établit de nouvelles normes en matière de précision et de rapidité pour les tâches de vision par ordinateur.

Un ensemble de données de référence est une collection standardisée et de haute qualité de données conçue pour évaluer les performances des modèles d'apprentissage automatique (ML) de manière équitable, reproductible et objective. Contrairement aux données propriétaires utilisées pour les tests internes, un ensemble de données de référence sert de « référence » publique pour la communauté de la recherche et du développement. En testant différents algorithmes sur des entrées identiques et en utilisant des mesures d'évaluation identiques, les développeurs peuvent déterminer avec précision quels modèles offrent une précision, une vitesse ou une efficacité supérieures. Ces ensembles de données sont essentiels pour suivre les progrès scientifiques dans des domaines tels que la vision par ordinateur (CV) et le traitement du langage naturel .

L'importance de la normalisation

Dans le paysage en rapide évolution de l' intelligence artificielle (IA), affirmer qu' un nouveau modèle est « plus rapide » ou « plus précis » n'a en réalité aucun sens sans un point de référence commun. Les ensembles de données de référence fournissent ce terrain d'entente nécessaire. Ils sont généralement conçus pour représenter des défis spécifiques, tels que la détection de petits objets, la gestion des occlusions ou la navigation dans de mauvaises conditions d'éclairage.

Les grands concours, tels que l' ImageNet Scale Visual Recognition Challenge, s'appuient sur ces ensembles de données pour favoriser une concurrence saine et l'innovation. Cette normalisation garantit que les améliorations apportées à l' architecture des modèles représentent de véritables avancées technologiques plutôt que le résultat de tests effectués sur des données plus faciles, non standardisées ou sélectionnées avec soin. En outre, l'utilisation de benchmarks établis aide les chercheurs à identifier les biais potentiels des ensembles de données, garantissant ainsi que les modèles s'adaptent bien à divers scénarios réels.

Distinguer les repères des autres divisions de données

Il est essentiel de différencier un ensemble de données de référence des divisions de données utilisées au cours du cycle de vie standard de développement d'un modèle . Bien qu'ils présentent des similitudes, leurs rôles sont distincts :

Données d'entraînement: matériel utilisé pour enseigner au modèle. L'algorithme ajuste ses poids internes en fonction de ces données.
Données de validation: Sous-ensemble utilisé pendant la formation pour ajuster les hyperparamètres et éviter l'ajustement excessif. l 'ajustement excessif. Il s'agit d'une vérification préliminaire mais ne représente pas le score final.
Données d'essai: Un ensemble de données internes utilisé pour vérifier les performances avant la publication.
Ensemble de données de référence : Un ensemble de tests externes universellement acceptés. Bien qu'un benchmark agisse comme des données de test, il se distingue principalement par son rôle de norme publique pour le contrôle de la qualité, de test, sa principale distinction est son rôle de norme publique pour la comparaison de modèles.

Applications concrètes

Les ensembles de données de référence définissent la réussite dans divers secteurs en établissant des normes rigoureuses en matière de sécurité et de fiabilité. Ils permettent aux organisations de vérifier qu'un modèle est prêt à être déployé dans des environnements critiques.

Détection d'objets dans le domaine de la vision générale

L'exemple le plus marquant en matière de détection d'objets est l'ensemble de données COCO Common Objects in Context). Lorsque Ultralytics une nouvelle architecture telle que YOLO26, ses performances sont rigoureusement évaluées par rapport à COCO vérifier les améliorations en termes de précision moyenne (mAP). Cela permet aux chercheurs de comparer précisément YOLO26 à YOLO11 ou d'autres modèles de pointe dans la reconnaissance d' objets quotidiens tels que les personnes, les vélos et les animaux.

Sécurité de la conduite autonome

Dans l'industrie automobile, la sécurité est primordiale. Les développeurs de véhicules autonomes utilisent des benchmarks spécialisés tels que la suite KITTI Vision Benchmark ou le Waymo Open Dataset. Ces ensembles de données contiennent des enregistrements complexes et annotés d' environnements de conduite urbains, incluant des piétons, des cyclistes et des panneaux de signalisation. En évaluant les systèmes de perception par rapport à ces benchmarks, les ingénieurs peuvent quantifier la robustesse de leur système dans des scénarios de circulation réels, garantissant ainsi que l'IA réagit correctement aux dangers dynamiques.

Benchmarking avec Ultralytics

Pour faciliter une comparaison précise, Ultralytics des outils intégrés permettant de comparer les modèles entre différents formats d'exportation , tels que ONNX ou TensorRT. Cela aide les utilisateurs à identifier le meilleur compromis entre la latence d'inférence et la précision pour leur matériel spécifique, qu'il s'agisse d'un déploiement sur des appareils périphériques ou des serveurs cloud.

L'exemple suivant montre comment évaluer les performances d'un modèle YOLO26 à l'aide de Python . Ce processus évalue la vitesse et la précision du modèle sur une configuration de jeu de données standard.

from ultralytics import YOLO

# Load the official YOLO26 nano model
model = YOLO("yolo26n.pt")

# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy (mAP) on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)

Défis et considérations

Si les benchmarks sont essentiels, ils ne sont pas infaillibles. Un phénomène connu sous le nom de « teaching to the test » (enseignement axé sur les tests) peut se produire si les chercheurs optimisent un modèle spécifiquement pour obtenir un score élevé sur un benchmark, au détriment de la généralisation à des données nouvelles et inconnues. De plus, les benchmarks statiques peuvent devenir obsolètes à mesure que les conditions réelles changent. Les mises à jour continues des ensembles de données, telles que celles observées dans le projet Objects365 ou Open ImagesGoogle, contribuent à atténuer ces problèmes en augmentant la variété et l'échelle. Les utilisateurs qui souhaitent gérer leurs propres ensembles de données pour des tests de performance personnalisés peuvent tirer parti de la Ultralytics pour rationaliser l'approvisionnement et l' évaluation des données.

Ensemble de données de référence (Benchmark Dataset)

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

L'importance de la normalisation

Distinguer les repères des autres divisions de données

Applications concrètes

Détection d'objets dans le domaine de la vision générale

Sécurité de la conduite autonome

Benchmarking avec Ultralytics

Défis et considérations

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Qu'est-ce que l'estimation monoculaire de la profondeur ? Aperçu général

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Rejoindre la communauté Ultralytics