Glossaire

Prétraitement des données

Prétraitement des données de base pour l'apprentissage automatique. Apprends des techniques comme le nettoyage, la mise à l'échelle et l'encodage pour stimuler la précision et la performance des modèles.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le prétraitement des données est une étape cruciale du pipeline d'apprentissage automatique qui consiste à nettoyer, transformer et organiser les données brutes pour les rendre adaptées à l'entraînement des modèles. La qualité des données d'entrée a un impact significatif sur les performances et la précision des modèles d'apprentissage automatique. Par conséquent, un prétraitement efficace des données est essentiel pour construire des systèmes d'IA robustes et fiables. Ce processus comprend généralement la gestion des valeurs manquantes, le traitement des valeurs aberrantes, la normalisation ou la standardisation des caractéristiques et la conversion des variables catégorielles en représentations numériques.

Importance du prétraitement des données

Le prétraitement des données est essentiel pour plusieurs raisons. Tout d'abord, il permet de s'assurer que les données introduites dans un modèle sont de haute qualité, ce qui peut conduire à des prédictions plus précises et plus fiables. Les données brutes contiennent souvent des erreurs, des incohérences et du bruit qui peuvent affecter négativement les performances du modèle. En nettoyant et en transformant les données, ces problèmes peuvent être atténués, ce qui permet d'améliorer la précision du modèle. Deuxièmement, le prétraitement peut aider à réduire la complexité des données, ce qui permet aux modèles d'apprendre plus facilement les modèles et les relations. Cela peut se traduire par des temps de formation plus rapides et des performances de modèle plus efficaces. Enfin, les étapes de prétraitement telles que la normalisation et la standardisation peuvent contribuer à améliorer la stabilité et la convergence des algorithmes d'apprentissage automatique, en particulier ceux qui sont sensibles à l'échelle des caractéristiques, comme la descente de gradient.

Techniques courantes de prétraitement des données

Plusieurs techniques sont couramment utilisées pour le prétraitement des données :

  • Nettoyage des données : Il s'agit de traiter les valeurs manquantes, de corriger les erreurs et de supprimer les incohérences dans les données. Les valeurs manquantes peuvent être imputées à l'aide de différentes méthodes, telles que l'imputation de la moyenne, de la médiane ou du mode, ou des techniques plus avancées telles que l'imputation par k-voisins les plus proches.
  • Transformation des données : Cela comprend des techniques telles que la normalisation et la standardisation, qui mettent à l'échelle des caractéristiques numériques dans une fourchette standard, empêchant ainsi les caractéristiques ayant des valeurs plus importantes de dominer le processus d'apprentissage.
  • Réduction des données : Il s'agit de réduire la taille de l'ensemble de données tout en conservant les informations essentielles. Des techniques comme l'analyse en composantes principales (ACP) peuvent être utilisées pour réduire la dimensionnalité des données en identifiant les caractéristiques les plus importantes.
  • Mise à l'échelle des caractéristiques : La mise à l'échelle des caractéristiques est une méthode utilisée pour normaliser l'étendue des variables indépendantes ou des caractéristiques des données. Des techniques telles que la mise à l'échelle Min-Max ou la normalisation du score Z sont couramment utilisées.
  • Encodage des caractéristiques : Les variables catégorielles sont souvent codées en représentations numériques pour être utilisées dans les modèles d'apprentissage automatique. Les techniques d'encodage courantes comprennent l'encodage à une touche et l'encodage d'étiquettes.

Le prétraitement des données dans les applications du monde réel

Le prétraitement des données joue un rôle essentiel dans diverses applications d'IA et d'apprentissage automatique du monde réel. Voici deux exemples concrets :

  1. Véhicules autonomes : Dans les véhicules autonomes, les données provenant de divers capteurs tels que les caméras, le lidar et le radar doivent être prétraitées avant d'être utilisées pour des tâches telles que la détection d'objets et la planification de la trajectoire. Les étapes de prétraitement peuvent inclure la réduction du bruit, la rectification de l'image et la fusion des capteurs afin de créer une représentation unifiée et précise de l'environnement du véhicule. Les modèles de vision par ordinateur, tels que Ultralytics YOLO , s'appuient sur des données d'entrée de haute qualité pour détecter et classer avec précision les objets en temps réel.
  2. Analyse d'images médicales : Dans l'analyse des images médicales, le prétraitement est essentiel pour améliorer la précision des outils de diagnostic. Par exemple, les images d'IRM ou de tomodensitométrie peuvent subir des étapes de prétraitement telles que la réduction du bruit, l'amélioration du contraste et la normalisation pour mettre en évidence des caractéristiques importantes comme les tumeurs ou les lésions. Ces images prétraitées sont ensuite utilisées pour former des modèles d'apprentissage profond à des tâches telles que la segmentation et la classification d'images, ce qui contribue à un diagnostic précoce et précis des maladies.

Prétraitement des données et autres termes connexes

Bien que le prétraitement des données soit un terme général, il est souvent associé à d'autres concepts connexes dans le pipeline de préparation des données :

  • Nettoyage des données : Le nettoyage des données est un sous-ensemble du prétraitement des données qui se concentre spécifiquement sur l'identification et la correction des erreurs, des incohérences et des valeurs manquantes dans les données. Bien que le nettoyage des données soit une partie cruciale du prétraitement, il est plus étroitement axé sur les problèmes de qualité des données. En savoir plus sur les meilleures pratiques en matière de collecte et d'annotation des données.
  • Augmentation des données : L'augmentation des données est une technique utilisée pour augmenter artificiellement la taille de l'ensemble de données de formation en créant des versions modifiées de points de données existants. Cette technique est particulièrement utile dans les applications d'apprentissage profond où de grandes quantités de données sont nécessaires. Si l'augmentation des données peut être considérée comme une forme de prétraitement des données, elle vise spécifiquement à améliorer la généralisation du modèle en introduisant davantage de variabilité dans les données d'entraînement. En savoir plus sur le prétraitement des données annotées.
  • Ingénierie des fonctionnalités : L'ingénierie des caractéristiques consiste à créer de nouvelles caractéristiques ou à modifier les caractéristiques existantes afin d'améliorer les performances du modèle. Il peut s'agir de techniques telles que la création de termes d'interaction, de caractéristiques polynomiales ou de caractéristiques spécifiques à un domaine. Si l'ingénierie des caractéristiques et le prétraitement des données visent tous deux à améliorer la qualité des données, l'ingénierie des caractéristiques se concentre davantage sur la création de nouvelles informations, tandis que le prétraitement des données se concentre sur le nettoyage et la transformation des données existantes. Explore les conseils de formation de modèles et les idées d'évaluation de modèles sur le site Ultralytics docs.

En comprenant et en appliquant ces techniques de prétraitement, les praticiens peuvent s'assurer que leurs modèles d'apprentissage automatique sont formés sur des données de haute qualité, ce qui permet d'améliorer les performances, la précision et la fiabilité. En savoir plus sur les options de déploiement de modèles et les meilleures pratiques en la matière.

Tout lire