Explore as causas do viés nos conjuntos de dados em IA e aprenda como mitigar o desvio. Descubra como usar a Ultralytics e Ultralytics para melhorar a imparcialidade.
O viés do conjunto de dados ocorre quando as informações utilizadas para ensinar modelos de aprendizagem automática (ML) contêm erros sistemáticos ou distribuições distorcidas, levando o sistema de IA resultante a favorecer certos resultados em detrimento de outros. Como os modelos funcionam como mecanismos de reconhecimento de padrões, eles dependem inteiramente de suas entradas; se os dados de treino não refletirem com precisão a diversidade do ambiente do mundo real, o modelo herdará esses pontos cegos. Esse fenômeno geralmente resulta em uma generalização deficiente, em que uma IA pode obter pontuações altas durante os testes, mas falha significativamente quando implantada para inferência em tempo real em cenários diversos ou inesperados .
O viés pode infiltrar-se num conjunto de dados em várias fases do ciclo de vida do desenvolvimento, frequentemente resultante de decisões humanas durante a recolha ou anotação.
O impacto do viés dos conjuntos de dados é significativo em vários setores, especialmente onde os sistemas automatizados tomam decisões de alto risco ou interagem com o mundo físico.
Na indústria automóvel, a IA depende de câmaras para identificar peões e obstáculos. Se um carro autónomo for treinado principalmente com dados recolhidos em climas ensolarados e secos, ele pode apresentar degradação de desempenho ao operar na neve ou chuva forte. Este é um exemplo clássico de falha na distribuição do treinamento em relação à distribuição operacional, levando a riscos de segurança.
Da mesma forma, na análise de imagens médicas, os modelos de diagnóstico são frequentemente treinados com dados históricos de pacientes. Se um modelo projetado para detect doenças detect for treinado com um conjunto de dados dominado por tons de pele mais claros, ele poderá apresentar uma precisão significativamente menor ao diagnosticar pacientes com pele mais escura. Para resolver isso, é necessário um esforço conjunto para selecionar conjuntos de dados diversificados que garantam a equidade da IA em todos os grupos demográficos.
Os programadores podem reduzir o viés dos conjuntos de dados empregando auditorias rigorosas e estratégias de treino avançadas. Técnicas como o aumento de dados ajudam a equilibrar os conjuntos de dados, criando artificialmente variações de exemplos sub-representados (por exemplo, invertendo, rodando ou ajustando o brilho). Além disso, a geração de dados sintéticos pode preencher lacunas onde os dados do mundo real são escassos ou difíceis de recolher.
É fundamental gerir esses conjuntos de dados de forma eficaz. Ultralytics permite que as equipas visualizem as distribuições de classes e identifiquem desequilíbrios antes do início do treino. Além disso, aderir a diretrizes como a Estrutura de Gestão de Riscos de IA do NIST ajuda as organizações a estruturar a sua abordagem para identificar e mitigar esses riscos de forma sistemática.
É útil distinguir o viés do conjunto de dados de termos semelhantes para compreender onde o erro se origina:
O exemplo a seguir demonstra como aplicar o aumento de dados durante o treinamento com o YOLO26. Ao aumentar as ampliações geométricas, o modelo aprende a generalizar melhor, reduzindo potencialmente o viés em relação a orientações ou posições específicas de objetos encontrados no conjunto de treinamento.
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)