Glossário

Viés do conjunto de dados

Aprende a identificar e a atenuar o enviesamento do conjunto de dados na IA para garantir modelos de aprendizagem automática justos, precisos e fiáveis para aplicações do mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O enviesamento do conjunto de dados é um problema crítico na aprendizagem automática (ML), em que os dados utilizados para treinar um modelo não representam sistematicamente a diversidade e a complexidade do ambiente real em que o modelo será implementado. Esta discrepância resulta de falhas nos processos de recolha, amostragem ou anotação de dados. Consequentemente, os modelos treinados em conjuntos de dados enviesados podem ter um bom desempenho nas métricas de avaliação utilizando dados semelhantes, mas apresentam uma fraca generalização, imprecisão e injustiça quando aplicados a dados novos, não vistos ou a grupos demográficos diferentes. Abordar o enviesamento dos conjuntos de dados é essencial para criar sistemas de IA fiáveis, eficazes e equitativos, tal como salientado nas discussões sobre Enviesamento na IA.

Tipos de enviesamento do conjunto de dados

Várias formas de enviesamento podem infiltrar-se nos conjuntos de dados, conduzindo a resultados distorcidos do modelo. Compreender estes tipos é o primeiro passo para os atenuar:

  • Viés de seleção: Ocorre quando o processo de recolha de dados favorece determinados subconjuntos de dados em detrimento de outros, conduzindo a uma amostra não representativa. Por exemplo, a recolha de dados de tráfego apenas durante determinadas horas pode não ter em conta padrões de outras horas.
  • Viés de amostragem: Um tipo específico de viés de seleção em que a amostra recolhida não reflecte com precisão as proporções da população-alvo. A utilização de métodos de amostragem não aleatórios pode muitas vezes causar este tipo de viés.
  • Viés de medição: resulta de imprecisões ou inconsistências durante a fase de medição ou anotação dos dados. Isto pode envolver sensores defeituosos ou inconsistências subjectivas na rotulagem de dados realizada por diferentes anotadores.
  • Viés de etiqueta: Ocorre quando as etiquetas atribuídas aos pontos de dados são subjectivas, inconsistentes ou reflectem preconceitos implícitos dos anotadores, potencialmente influenciados por factores como a explicação do viés de confirmação.
  • Viés de representação: Acontece quando o conjunto de dados sub-representa certos grupos ou atributos presentes no mundo real, levando o modelo a ter um desempenho fraco para esses grupos.

Exemplos reais de enviesamento de conjuntos de dados

O enviesamento do conjunto de dados pode ter consequências significativas no mundo real em várias aplicações:

  1. Sistemas de Reconhecimento Facial: Muitos dos primeiros sistemas de reconhecimento facial foram treinados em conjuntos de dados que apresentavam predominantemente rostos masculinos de pele mais clara. Como resultado, estes sistemas apresentavam frequentemente uma precisão significativamente inferior quando identificavam indivíduos com tons de pele mais escuros ou rostos femininos, tal como documentado no estudo do NIST sobre efeitos demográficos no reconhecimento facial.
  2. Análise de imagens médicas: Um modelo de IA concebido para detetar o cancro da pele pode ser treinado principalmente em imagens de indivíduos de pele clara. Se fosse utilizado numa população diversificada, poderia não detetar com precisão os tumores malignos em indivíduos com tons de pele mais escuros devido à falta de imagens representativas nos dados de treino, salientando questões de parcialidade na investigação de IA médica e tendo impacto na eficácia da IA nos cuidados de saúde.

Identificar e atenuar o enviesamento do conjunto de dados

A deteção de enviesamento do conjunto de dados envolve uma análise cuidadosa da fonte de dados, dos métodos de recolha e da distribuição de caraterísticas e rótulos. As técnicas incluem a análise exploratória de dados, testes estatísticos que comparam o desempenho de subgrupos e a visualização de dados para detetar desequilíbrios.

Uma vez identificadas, as estratégias de atenuação incluem:

  • Recolha de dados mais representativos: Alargar os esforços de recolha de dados para incluir grupos e cenários sub-representados.
  • Aumento dos dados: A aplicação de técnicas como a rotação de imagens, o recorte ou as mudanças de cor, utilizando ferramentas integradas em modelos como o Ultralytics YOLO , pode ajudar a aumentar a diversidade dos dados, conforme descrito no glossário Data Augmentation.
  • Técnicas de reamostragem: Ajusta o conjunto de dados através da sobreamostragem das classes minoritárias ou da subamostragem das classes maioritárias.
  • Técnicas de equidade algorítmica: Implementa algoritmos concebidos para promover a equidade durante a formação do modelo ou o pós-processamento. Ferramentas como o AI Fairness 360 Toolkit (IBM Research) oferecem recursos para este efeito.
  • Usando conjuntos de dados de referência diversificados: Avalia modelos em conjuntos de dados de referência padronizados conhecidos pela sua diversidade.

Conceitos relacionados

O enviesamento do conjunto de dados está intimamente ligado a vários outros conceitos importantes em IA:

  • Enviesamento algorítmico: Enquanto o enviesamento do conjunto de dados tem origem nos dados, o enviesamento algorítmico tem origem na conceção do modelo ou no processo de aprendizagem, que pode amplificar os enviesamentos existentes ou introduzir novos enviesamentos.
  • Equidade na IA: Este domínio centra-se no desenvolvimento de sistemas de IA que tratem os indivíduos e os grupos de forma equitativa, envolvendo frequentemente a medição e a atenuação de enviesamentos de conjuntos de dados e algoritmos.
  • Ética da IA: O enviesamento do conjunto de dados é uma grande preocupação ética, uma vez que os modelos enviesados podem perpetuar a discriminação e os danos. Quadros éticos mais amplos orientam o desenvolvimento responsável da IA, defendido por organizações como a Partnership on AI (PAI).
  • IA explicável (XAI): As técnicas que tornam as previsões do modelo mais transparentes podem ajudar a identificar se os enviesamentos no conjunto de dados estão a influenciar os resultados.

Compreender e abordar proactivamente o enviesamento do conjunto de dados, tal como discutido em recursos como o blogue Understanding AI Bias e o Google's Responsible AI Practices, é crucial para criar sistemas de IA fiáveis. A investigação e os recursos de entidades como Microsoft Responsible AI Resources e a ACM Conference on Fairness, Accountability, and Transparency (FAccT) continuam a desenvolver métodos para enfrentar este desafio.

Lê tudo