Glossaire

Données de formation

Découvre l'importance des données d'entraînement dans l'apprentissage automatique, ses facteurs clés et la façon dont Ultralytics YOLO les exploite pour créer des modèles d'IA de pointe.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les données d'entraînement sont la pierre angulaire de l'apprentissage automatique supervisé, car elles constituent la base sur laquelle les modèles apprennent à faire des prédictions précises. Il s'agit d'un ensemble d'exemples d'entrée, où chaque exemple est associé à la sortie souhaitée correspondante, connue sous le nom de "vérité de base" ou "étiquette". En analysant ces données étiquetées, les algorithmes d'apprentissage automatique identifient des modèles et des relations qui leur permettent de généraliser et de faire des prédictions sur de nouvelles données inédites. La qualité, la taille et la représentativité des données d'apprentissage ont un impact significatif sur les performances et la fiabilité du modèle formé.

Importance des données de formation

Des données d'entraînement de haute qualité sont essentielles pour construire des modèles d'apprentissage automatique robustes et précis. Les données doivent être représentatives des scénarios du monde réel que le modèle rencontrera, et couvrir un large éventail de variations et de cas limites. Un ensemble de données diversifié et complet aide le modèle à apprendre les modèles et les relations sous-jacents dans les données, ce qui permet une meilleure généralisation et de meilleures performances sur des données non vues. Des données d'entraînement insuffisantes ou biaisées peuvent donner lieu à des modèles peu performants dans les applications réelles ou présentant un comportement injuste ou discriminatoire.

Considérations clés pour les données de formation

Plusieurs facteurs contribuent à l'efficacité des données de formation :

  • Qualité des données : Des données précises, cohérentes et bien étiquetées sont cruciales. Les erreurs ou les incohérences dans les données peuvent conduire un modèle à apprendre des modèles incorrects.
  • Quantité de données : En général, un plus grand nombre de données conduit à une meilleure performance du modèle, car il permet au modèle d'apprendre des modèles plus complexes. Cependant, la qualité des données ne doit pas être sacrifiée au profit de la quantité.
  • Pertinence des données : Les données d'entraînement doivent être pertinentes par rapport à la tâche spécifique pour laquelle le modèle est entraîné. L'inclusion de données non pertinentes peut introduire du bruit et entraver la capacité du modèle à apprendre les modèles souhaités.
  • Diversité des données : Un ensemble de données diversifié qui couvre un large éventail de scénarios, de variations et de cas limites aide le modèle à mieux se généraliser à de nouvelles données inédites.
  • Équilibre des données : Dans les tâches de classification, il est important d'avoir une représentation équilibrée de chaque classe dans les données de formation. Des données déséquilibrées peuvent conduire à des modèles biaisés qui donnent de mauvais résultats pour les classes sous-représentées. Pour en savoir plus sur la façon d'aborder le déséquilibre des données, consulte le blogUltralytics .

Données de formation et termes apparentés

Il est important de distinguer les données d'entraînement des autres types de données utilisées dans l'apprentissage automatique :

  • Données de validation : Les données de validation sont utilisées pour affiner les hyperparamètres du modèle et évaluer ses performances pendant la formation. Elles permettent d'éviter le surajustement en fournissant une estimation impartiale des performances du modèle sur des données inédites.
  • Données de test : Les données de test sont utilisées pour évaluer les performances finales du modèle formé. Elles sont totalement indépendantes des données de formation et de validation et fournissent une estimation impartiale des performances du modèle sur de nouvelles données inédites.

Applications des données de formation dans le monde réel

Les données de formation sont utilisées dans un large éventail d'applications réelles dans divers secteurs d'activité. Voici deux exemples concrets :

Véhicules autonomes

Les voitures auto-conduites s'appuient fortement sur des données d'entraînement pour apprendre à naviguer et à prendre des décisions dans des environnements réels complexes. Les données d'entraînement de ces systèmes comprennent généralement des images et des données de capteurs provenant de caméras, de lidars et de radars, ainsi que des étiquettes correspondantes indiquant la présence et l'emplacement d'objets tels que des piétons, des véhicules et des panneaux de signalisation. En s'entraînant sur de vastes quantités de données diverses et représentatives, les modèles de conduite autonome peuvent apprendre à percevoir avec précision leur environnement et à prendre des décisions de conduite sûres. Explore le rôle de l'IA de vision dans les voitures autonomes pour en savoir plus.

Diagnostic médical

Les données d'entraînement jouent un rôle crucial dans le développement de modèles d'IA pour le diagnostic médical. Par exemple, dans le domaine de l'imagerie médicale, des modèles peuvent être formés pour détecter des maladies telles que le cancer à partir de radiographies, de tomodensitogrammes ou d'images IRM. Les données d'entraînement de ces modèles sont constituées d'images médicales étiquetées par des radiologues experts, indiquant la présence et l'emplacement de tumeurs ou d'autres anomalies. En apprenant à partir de grands ensembles de données d'images médicales étiquetées, les modèles d'IA peuvent aider les médecins à établir des diagnostics plus rapides et plus précis. En savoir plus sur les applications de l'IA dans le domaine de la santé.

Données de formation en Ultralytics YOLO

Ultralytics YOLO (You Only Look Once) sont des modèles de détection d'objets de pointe qui s'appuient sur des données d'entraînement de haute qualité pour atteindre des performances exceptionnelles. Ces modèles sont entraînés sur de grands ensembles de données d'images avec des annotations de boîtes de délimitation correspondantes, indiquant l'emplacement et la classe des objets dans chaque image. Explore la variété de modèles pris en charge par Ultralytics, y compris YOLOv3 à YOLOv10, NAS, SAM, et RT-DETR pour la détection, la segmentation, et plus encore.

Ultralytics propose une plateforme conviviale, Ultralytics HUB, pour gérer les ensembles de données et former des modèles personnalisés. Les utilisateurs peuvent télécharger leurs propres ensembles de données ou choisir parmi une variété d'ensembles de données préexistants, tels que COCO, pour entraîner leurs modèles. En savoir plus sur la formation d'ensembles de données personnalisés avec Ultralytics YOLO dans Google Colab. La plateforme offre également des outils pour la visualisation des données, l'évaluation des modèles et le déploiement, ce qui facilite la construction et le déploiement de modèles de détection d'objets très performants.

La documentation du site Ultralytics fournit des ressources étendues sur les formats des ensembles de données, la formation des modèles et les mesures de performance, ce qui permet aux utilisateurs d'exploiter efficacement les données de formation pour leurs applications spécifiques.

Tout lire