Glossaire

Exploration de données

Découvre comment le data mining transforme les données brutes en informations exploitables, alimentant l'IA, la ML et les applications du monde réel dans les domaines de la santé, de la vente au détail, et bien plus encore !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'exploration de données est le processus qui consiste à découvrir des modèles, des corrélations, des anomalies et d'autres informations précieuses cachées dans de grands ensembles de données. Il combine des techniques issues de l'apprentissage automatique (ML), des statistiques et des systèmes de base de données pour transformer les données brutes en informations et connaissances utiles. Dans le domaine de l'intelligence artificielle (IA), le data mining sert d'étape critique pour comprendre les caractéristiques des données, préparer les données pour l'entraînement des modèles et découvrir les structures sous-jacentes qui permettent de prendre des décisions intelligentes. L'idée de base est souvent appelée découverte de connaissances dans les bases de données (KDD).

Principales techniques d'exploration de données

Le data mining englobe une variété de techniques utilisées pour explorer et analyser les données sous différents angles. Parmi les méthodes les plus courantes, on peut citer :

  • Classification: Affectation des points de données à des catégories ou classes prédéfinies. Utilisée dans des tâches telles que la détection des courriers électroniques indésirables ou la classification des images.
  • Regroupement: Regroupement de points de données similaires sans connaissance préalable des groupes. Utile pour la segmentation de la clientèle ou l'identification de modèles distincts dans les données biologiques. Voir des algorithmes comme K-Means ou DBSCAN.
  • Régression: Prédiction de valeurs numériques continues, comme la prévision des ventes ou l'estimation des prix des maisons. Les exemples incluent la régression linéaire.
  • Extraction de règles d'association: Découverte de relations ou d'associations entre des éléments dans de grands ensembles de données, fameusement utilisée dans l'analyse des paniers de marché pour comprendre les habitudes d'achat.
  • Détection d'anomalie: Identifier les points de données ou les événements qui s'écartent considérablement de la norme, ce qui est crucial pour la détection des fraudes ou l'identification des valeurs aberrantes dans les données des capteurs.
  • Réduction de la dimensionnalité: Réduction du nombre de variables (caractéristiques) prises en compte tout en préservant les informations importantes, souvent à l'aide de techniques telles que l'analyse en composantes principales (ACP).

Le processus d'exploration des données

L'exploration de données est généralement un processus itératif comprenant plusieurs étapes :

  1. Compréhension de l'entreprise : Définir les objectifs et les exigences du projet.
  2. Compréhension des données : Collecte et exploration initiales des données pour se familiariser avec elles.
  3. Préparation des données : Il s'agit du nettoyage des données (traitement des valeurs manquantes, du bruit), de l'intégration des données (combinaison des sources), de la sélection des données (choix des données pertinentes) et du prétraitement des données (formatage des données). L'augmentation des données peut également être appliquée ici.
  4. Modélisation : Sélection et application de diverses techniques d'exploitation minière (comme la classification, le regroupement) pour identifier des modèles. Cela implique souvent l'utilisation d'algorithmes ML.
  5. L'évaluation : Évaluer la validité, la nouveauté, l'utilité et la compréhensibilité des modèles découverts. Des mesures telles que la précision ou le mAP sont souvent utilisées.
  6. Déploiement : Utiliser les connaissances découvertes pour prendre des décisions, souvent en les intégrant dans des systèmes opérationnels ou en rendant compte des résultats. Cela peut impliquer le déploiement d'un modèle.

Exploration de données et concepts connexes

Bien qu'apparenté, le data mining diffère des autres domaines axés sur les données :

  • Analyse des données: L'analyse des données est un terme plus large qui englobe l'ensemble du processus d'inspection, de nettoyage, de transformation et de modélisation des données pour faciliter la prise de décision. L'exploration des données est une étape spécifique de l'analyse des données qui se concentre sur la découverte de nouveaux modèles cachés. L'analyse se concentre souvent sur les statistiques descriptives et les relations connues, tandis que l'exploration recherche l'inconnu.
  • Apprentissage machine (ML): Le ML est un domaine de l'IA axé sur le développement d'algorithmes qui permettent aux systèmes d'apprendre à partir des données. Le data mining utilise les algorithmes de ML comme outils pour découvrir des modèles, mais le ML lui-même est plus large, couvrant la création et l'application d'algorithmes d'apprentissage pour diverses tâches (prédiction, classification, etc.). L'objectif du data mining est avant tout la découverte de connaissances à partir de données.
  • Big Data: Les Big Data font référence à des ensembles de données caractérisés par un grand volume, une grande vélocité et une grande variété. Les techniques d'exploration de données sont essentielles pour extraire de la valeur des Big Data, mais les Big Data elles-mêmes décrivent la nature des données, et non le processus d'analyse. Des outils comme Apache Spark sont souvent utilisés pour l'exploration des Big Data.

Applications IA/ML dans le monde réel

L'exploration des données est le moteur de l'innovation dans de nombreux secteurs :

  1. Commerce de détail et commerce électronique : Les détaillants utilisent l'extraction de règles d'association (analyse du panier de la ménagère) sur les données de transaction pour découvrir les produits qui sont fréquemment achetés ensemble. Ces informations éclairent la conception de l'agencement du magasin, les promotions ciblées et alimentent les systèmes de recommandation en ligne ("Les clients qui ont acheté X ont également acheté Y"). Cela permet d'optimiser la gestion des stocks pilotée par l'IA et de personnaliser les expériences des clients, comme on le voit sur des plateformes telles qu'Amazon.
  2. Santé : Les techniques d'exploration de données telles que la classification et le regroupement analysent les dossiers des patients (EHR) et les images médicales pour identifier les schémas associés aux maladies, prédire les facteurs de risque des patients ou évaluer l'efficacité des traitements. Par exemple, l'exploration des données de diagnostic peut aider à la détection précoce de maladies comme le cancer (par exemple, en utilisant des ensembles de données comme celui des tumeurs cérébrales) ou à la prédiction des réadmissions à l'hôpital, ce qui contribue à améliorer les soins aux patients et l'allocation des ressources au sein d'institutions comme les NIH. Explore l'IA dans les solutions de santé pour plus d'exemples.

Exploration de données et Ultralytics

Chez Ultralytics, les principes d'exploration de données sous-tendent de nombreux aspects du développement et du déploiement de modèles de vision par ordinateur (VPI) de pointe, tels que les modèles d'analyse des données. Ultralytics YOLO. La formation de modèles robustes pour des tâches telles que la détection d'objets ou la segmentation d'images nécessite des données de haute qualité et bien comprises. Les techniques d'exploration de données sont essentielles lors du prétraitement, de la collecte et de l'annotation des données pour nettoyer les données, identifier lesbiais (biais du jeu de données) et sélectionner les caractéristiques pertinentes, ce qui améliore en fin de compte la précision du modèle.

De plus, Ultralytics HUB fournit une plateforme sur laquelle les utilisateurs peuvent gérer des ensembles de données et former des modèles. Les outils de l'écosystème HUB facilitent l'exploration et la compréhension des ensembles de données, ce qui permet aux utilisateurs d'appliquer des concepts d'exploration de données pour optimiser leurs propres flux de travail de ML et exploiter efficacement des techniques telles que l'augmentation des données. Comprendre les données grâce à l'exploration est crucial avant d'entreprendre des étapes comme le réglage des hyperparamètres. Tu peux en savoir plus sur le rôle de l'apprentissage automatique et de l'exploration des données dans la vision par ordinateur sur notre blog. Des outils comme PyTorch et des bibliothèques comme OpenCV sont des outils fondamentaux utilisés parallèlement à ces processus.

Tout lire