Glossaire

Données de formation

Découvre l'importance des données d'entraînement dans l'IA. Apprends comment les ensembles de données de qualité alimentent des modèles d'apprentissage automatique précis et robustes pour les tâches du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Dans les domaines de l'intelligence artificielle (IA) et de l'apprentissage automatique, les données d'entraînement sont l'ingrédient essentiel utilisé pour enseigner aux modèles comment effectuer des tâches. Il s'agit d'un ensemble de données contenant de nombreux exemples, où chaque exemple associe une entrée à la sortie ou à l'étiquette souhaitée. En traitant ces données, généralement par le biais d'algorithmes d'apprentissage supervisé, le modèle apprend à identifier des modèles, des relations et des caractéristiques, ce qui lui permet de faire des prédictions ou de prendre des décisions sur de nouvelles données inédites.

Qu'est-ce que les données de formation ?

Les données d'entraînement font office de matériel pédagogique pour un modèle d'IA. Il s'agit d'une collection d'informations formatées spécifiquement pour servir d'exemples au processus d'apprentissage. Par exemple, dans les tâches de vision artificielle telles que la détection d'objets, les données de formation comprennent des images ou des trames vidéo(caractéristiques d'entrée) ainsi que des annotations indiquant l'emplacement et la classe des objets qui s'y trouvent (étiquettes). Le processus de création de ces étiquettes est connu sous le nom d'étiquetage des données. Le modèle ajuste itérativement ses paramètres internes en fonction de ces données afin de minimiser la différence entre ses prédictions et les étiquettes fournies.

Importance des données de formation

La qualité, la quantité et la diversité des données d'entraînement déterminent directement les performances d'un modèle et sa capacité à se généraliser aux scénarios du monde réel(Généralisation en ML). Des données représentatives et de haute qualité permettent de construire des modèles robustes et d'atteindre une précision élevée. Des données insuffisantes ou biaisées peuvent entraîner des performances médiocres, un surajustement (lorsque le modèle apprend trop bien les données d'entraînement mais échoue sur de nouvelles données) ou des résultats injustes en raison d'un biais de l'ensemble des données. Par conséquent, la collecte et la préparation minutieuses des données d'entraînement sont des étapes essentielles de tout projet d'IA.

Exemples de données de formation dans des applications réelles

Les données d'entraînement alimentent d'innombrables applications d'intelligence artificielle. En voici deux exemples :

  1. Véhicules autonomes : Modèles comme Ultralytics YOLO utilisés en IA dans les voitures autonomes sont entraînés sur de vastes ensembles de données contenant des images et des données de capteurs provenant de diverses conditions de conduite. Ces données sont méticuleusement étiquetées avec des boîtes de délimitation ou des masques de segmentation pour les objets tels que les véhicules, les piétons, les cyclistes et les feux de circulation, souvent à l'aide de grands ensembles de données publics tels que l'ensemble de données COCO.
  2. Traitement du langage naturel : Pour des tâches telles que l'analyse des sentiments (Wikipédia), les données d'apprentissage consistent en des échantillons de texte (par exemple, des critiques de produits, des messages sur les médias sociaux) étiquetés avec des sentiments tels que "positif", "négatif" ou "neutre". Le modèle apprend à associer des modèles de langage à ces étiquettes de sentiment.

Qualité et préparation des données

Garantir des données de formation de haute qualité implique plusieurs processus clés :

  • Collecte des données : Rassembler des données pertinentes qui reflètent fidèlement le domaine du problème.
  • Nettoyage des données (Wikipédia): Identification et correction des erreurs, des incohérences ou des valeurs manquantes dans l'ensemble de données.
  • Étiquetage des données : Annoter précisément les données avec les bons résultats ou les bonnes cibles.
  • Augmentation des données: Extension artificielle de l'ensemble des données en créant des copies modifiées des données existantes (par exemple, rotation des images, modification de la luminosité) afin d'améliorer la robustesse du modèle.

Données de formation vs. données de validation et de test

Bien qu'on en parle souvent ensemble, ces ensembles de données ont des objectifs distincts :

  • Données de formation : Utilisées pour former le modèle en ajustant ses paramètres (poids).
  • Données de validation: Utilisées périodiquement pendant la formation pour évaluer les performances du modèle sur des données inédites et pour régler les hyperparamètres(Optimisation des hyperparamètres (Wikipédia)) sans introduire de biais provenant de l'ensemble de test.
  • Données de test: Utilisées uniquement une fois la formation au modèle terminée pour fournir une évaluation finale et impartiale des performances du modèle sur des données entièrement nouvelles.

Il est crucial de séparer correctement ces ensembles de données pour développer des modèles fiables et évaluer avec précision leurs capacités dans le monde réel. Des plateformes comme Ultralytics HUB aident à gérer efficacement ces ensembles de données pendant le cycle de vie du développement du modèle.

Tout lire