Glossaire

Biais de l'ensemble de données

Apprends à identifier et à atténuer les biais des ensembles de données dans l'IA pour garantir des modèles d'apprentissage automatique équitables, précis et fiables pour les applications du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le biais de jeu de données est un problème critique dans l'apprentissage automatique (ML) où les données utilisées pour former un modèle échouent systématiquement à représenter la diversité et la complexité de l'environnement du monde réel où le modèle sera déployé. Cet écart provient de failles dans les processus de collecte, d'échantillonnage ou d'annotation des données. Par conséquent, les modèles formés sur des ensembles de données biaisés peuvent donner de bons résultats sur des mesures d'évaluation utilisant des données similaires, mais présentent une mauvaise généralisation, une inexactitude et une injustice lorsqu'ils sont appliqués à de nouvelles données inédites ou à des groupes démographiques différents. Il est essentiel de s'attaquer aux biais des ensembles de données pour construire des systèmes d'IA fiables, efficaces et équitables, comme le soulignent les discussions autour des biais dans l'IA.

Types de biais de données

Plusieurs formes de biais peuvent s'infiltrer dans les ensembles de données, conduisant à des résultats de modèles biaisés. Comprendre ces types de biais est la première étape pour les atténuer :

  • Biais de sélection : se produit lorsque le processus de collecte des données favorise certains sous-ensembles de données par rapport à d'autres, ce qui conduit à un échantillon non représentatif. Par exemple, si l'on recueille des données sur la circulation uniquement à certaines heures, on risque de ne pas voir les tendances observées à d'autres moments.
  • Biais d'échantillonnage : Un type spécifique de biais de sélection où l'échantillon recueilli ne reflète pas exactement les proportions de la population cible. L'utilisation de méthodes d'échantillonnage non aléatoires en est souvent la cause.
  • Biais de mesure : provient d'inexactitudes ou d'incohérences lors de la mesure des données ou de la phase d'annotation. Il peut s'agir de capteurs défectueux ou d'incohérences subjectives dans l'étiquetage des données effectué par différents annotateurs.
  • Biais d'étiquette : se produit lorsque les étiquettes attribuées aux points de données sont subjectives, incohérentes ou reflètent les préjugés implicites des annotateurs, potentiellement influencés par des facteurs tels que l'explication du biais de confirmation.
  • Biais de représentation : se produit lorsque l'ensemble de données sous-représente certains groupes ou attributs présents dans le monde réel, ce qui conduit le modèle à être peu performant pour ces groupes.

Exemples réels de biais dans les ensembles de données

Les biais dans les ensembles de données peuvent avoir des conséquences importantes dans le monde réel pour diverses applications :

  1. Systèmes de reconnaissance faciale : De nombreux systèmes de reconnaissance faciale ont été formés sur des ensembles de données comportant principalement des visages d'hommes à la peau plus claire. Par conséquent, ces systèmes présentaient souvent une précision nettement inférieure lorsqu'il s'agissait d'identifier des personnes à la peau plus foncée ou des visages féminins, comme le montre l'étude du NIST sur les effets démographiques dans la reconnaissance faciale.
  2. Analyse d'images médicales : Un modèle d'IA conçu pour détecter le cancer de la peau pourrait être entraîné principalement sur des images d'individus à la peau claire. S'il est déployé dans une population diversifiée, il pourrait ne pas détecter avec précision les tumeurs malignes chez les individus à la peau plus foncée en raison du manque d'images représentatives dans les données d'entraînement, ce qui met en évidence les problèmes de partialité dans la recherche sur l'IA médicale et a un impact sur l'efficacité de l'IA dans le domaine de la santé.

Identifier et atténuer les biais des ensembles de données

La détection des biais des ensembles de données implique une analyse minutieuse de la source des données, des méthodes de collecte et de la distribution des caractéristiques et des étiquettes. Les techniques comprennent l'analyse exploratoire des données, les tests statistiques comparant les performances des sous-groupes et la visualisation des données pour repérer les déséquilibres.

Une fois identifiées, les stratégies d'atténuation comprennent :

  • Recueillir des données plus représentatives : Élargir les efforts de collecte de données pour inclure les groupes et les scénarios sous-représentés.
  • Augmentation des données : L'application de techniques telles que la rotation d'images, le recadrage ou les changements de couleur à l'aide d'outils intégrés à des modèles comme Ultralytics YOLO peut aider à augmenter la diversité des données, comme le détaille le glossaire sur l'augmentation des données.
  • Techniques de rééchantillonnage : Ajuster l'ensemble de données en sur-échantillonnant les classes minoritaires ou en sous-échantillonnant les classes majoritaires.
  • Techniques d'équité algorithmique : Mise en œuvre d'algorithmes conçus pour favoriser l'équité pendant l'apprentissage du modèle ou le post-traitement. Des outils tels que la boîte à outils AI Fairness 360 (IBM Research) offrent des ressources à cet effet.
  • Utiliser des ensembles de données de référence diversifiés : Évaluer les modèles sur des ensembles de données de référence standardisés connus pour leur diversité.

Concepts apparentés

La partialité des ensembles de données est étroitement liée à plusieurs autres concepts importants de l'IA :

  • Biais algorithmique: Alors que le biais des ensembles de données provient des données, le biais algorithmique provient de la conception du modèle ou du processus d'apprentissage, qui peut amplifier les biais existants ou en introduire de nouveaux.
  • Équité dans l'IA: ce domaine se concentre sur le développement de systèmes d'IA qui traitent les individus et les groupes de manière équitable, ce qui implique souvent la mesure et l'atténuation des biais des ensembles de données et des algorithmes.
  • Éthique de l'IA: La partialité des ensembles de données est une préoccupation éthique majeure, car les modèles biaisés peuvent perpétuer la discrimination et le préjudice. Des cadres éthiques plus larges guident le développement responsable de l'IA, préconisé par des organisations telles que le Partenariat sur l'IA (PAI).
  • L'IA explicable (XAI) : Les techniques qui rendent les prédictions des modèles plus transparentes peuvent aider à identifier si les biais de l'ensemble des données influencent les résultats.

Comprendre et traiter de manière proactive les biais des ensembles de données, comme l'expliquent des ressources telles que le blog Understanding AI Bias et les pratiques d'IA responsable deGoogle, est crucial pour créer des systèmes d'IA dignes de confiance. La recherche et les ressources d'entités telles que Microsoft Responsible AI Resources et la conférence ACM sur l'équité, la responsabilité et la transparence (FAccT) continuent de faire progresser les méthodes permettant de relever ce défi.

Tout lire