Glossaire

Dérive des données

Découvre l'impact de la dérive des données sur les modèles ML, les types de dérive, les stratégies de détection et les outils tels que Ultralytics HUB pour garantir la fiabilité de l'IA.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La dérive des données désigne le phénomène selon lequel les propriétés statistiques des données d'entrée changent au fil du temps, ce qui entraîne une dégradation potentielle des performances des modèles d'apprentissage machine (ML). Cela se produit lorsque les données utilisées lors de l'entraînement du modèle ne représentent plus fidèlement les données rencontrées lors du déploiement. La dérive des données est un concept essentiel pour maintenir les performances et la fiabilité des systèmes d'IA, en particulier dans les environnements dynamiques où les données évoluent fréquemment.

Types de dérive des données

  1. Dérive des covariables: Cela se produit lorsque la distribution des caractéristiques d'entrée (variables indépendantes) change, mais que la relation entre les entrées et les sorties reste la même. Par exemple, un modèle prédisant les prix des maisons peut rencontrer un changement dans la superficie moyenne des maisons dans les nouvelles données par rapport aux données de formation.
  2. Dérive du concept: Cela se produit lorsque la relation entre les caractéristiques d'entrée et la variable cible (variable dépendante) change. Par exemple, dans la détection des fraudes, de nouveaux types de fraudes peuvent apparaître, ce qui modifie les modèles que le modèle a été formé à détecter.

  3. Déplacement de la probabilité antérieure: Ce type de dérive se produit lorsque la distribution de la variable cible change au fil du temps. Par exemple, dans la prédiction du désabonnement des clients, la proportion de clients susceptibles de désabonner peut augmenter en raison des tendances du marché ou de facteurs externes.

Pertinence de la dérive des données

La dérive des données pose des défis importants pour les applications d'IA et de ML, car elle peut entraîner une sous-performance des modèles, des prédictions inexactes, voire des défaillances du système dans les applications critiques. Il est essentiel de surveiller et de traiter la dérive des données pour s'assurer que les modèles restent efficaces et dignes de confiance au fil du temps. Des outils tels que le Ultralytics HUB pour la surveillance et le recyclage des modèles offrent des capacités de détection et d'atténuation de la dérive de manière proactive.

Stratégies pour remédier à la dérive des données

  1. Détection de la dérive des données: Utilise des tests statistiques et des outils de surveillance pour identifier les changements dans la distribution des données. Des outils tels que Weights & Biases pour le suivi des performances des modèles peuvent aider à surveiller les paramètres au fil du temps.

  2. Recyclage régulier des modèles: Entraîner périodiquement les modèles en utilisant des données mises à jour pour s'aligner sur la distribution actuelle des données. Cela est particulièrement utile dans des secteurs comme l'analyse du comportement des clients du commerce de détail alimentée par l'IA, où les modèles évoluent fréquemment.

  3. Apprentissage adaptatif: Mets en œuvre des techniques d'apprentissage adaptatif où les modèles se mettent à jour de façon incrémentale avec de nouvelles données, réduisant ainsi la nécessité d'un recyclage complet.

  4. Validation sur des données en temps réel: Teste continuellement les modèles avec des données de validation provenant d'environnements réels afin de surveiller et d'ajuster les performances.

Exemples de dérive des données dans des applications réelles

  1. Santé: Dans les applications médicales, la dérive des données peut se produire en raison des changements démographiques des patients ou des progrès des technologies de diagnostic. Par exemple, un modèle formé sur des équipements d'imagerie plus anciens peut être moins performant avec des données provenant de machines plus récentes et à plus haute résolution. En savoir plus sur l 'impact de l'IA sur les avancées dans le domaine de la santé.

  2. Véhicules autonomes: La dérive des données est fréquente dans la conduite autonome en raison des changements saisonniers, de la construction de routes ou de nouveaux modèles de circulation. Par exemple, un modèle formé dans des conditions estivales peut avoir du mal avec des images de routes hivernales. Découvre-en plus sur la vision par ordinateur dans les voitures autonomes.

Distinction par rapport aux concepts apparentés

  • Surajustement: Alors que l'overfitting fait référence à l'incapacité d'un modèle à généraliser des données d'entraînement à des données non vues, la dérive des données concerne les changements dans les données d'entrée après que le modèle a été déployé. En savoir plus sur la définition et les impacts de l'overfitting.

  • Surveillance des modèles: La détection de la dérive des données est un sous-ensemble de pratiques plus larges de surveillance des modèles, qui comprennent le suivi de la précision du modèle, de la latence et d'autres mesures de performance.

Outils pour gérer la dérive des données

La dérive des données est un défi inévitable dans le cycle de vie des modèles d'apprentissage automatique, en particulier dans les environnements dynamiques. La surveillance proactive, le recyclage et l'utilisation d'outils robustes sont essentiels pour s'assurer que les modèles restent précis et efficaces dans les applications du monde réel.

Tout lire