A deriva de dados é um desafio significativo na aprendizagem automática (ML), em que as propriedades estatísticas dos dados utilizados para treinar um modelo mudam ao longo do tempo em comparação com os dados que o modelo encontra na produção. Esta divergência significa que os padrões que o modelo aprendeu durante o treino podem já não refletir com precisão o ambiente do mundo real, levando a um declínio no desempenho. Compreender e gerir o desvio de dados é essencial para manter a precisão e a fiabilidade dos sistemas de IA, especialmente os que funcionam em condições dinâmicas.
Porque é que a deriva de dados é importante
Quando ocorre a deriva de dados, os modelos treinados em dados históricos tornam-se menos eficazes em fazer previsões em dados novos e não vistos. Esta degradação do desempenho pode resultar em falhas na tomada de decisões, redução do valor comercial ou falhas críticas em aplicações sensíveis, como a IA em carros autónomos ou diagnósticos médicos. A monitorização contínua do modelo é crucial para detetar precocemente a deriva e implementar acções corretivas, como a reciclagem ou atualização do modelo, para preservar o desempenho. Ignorar o desvio de dados pode tornar obsoletos até mesmo os modelos mais sofisticados.
Causas de desvio de dados
Vários factores podem causar desvios de dados, incluindo:
- Mudanças no mundo real: Os eventos externos, a evolução do comportamento dos utilizadores, a sazonalidade ou as mudanças nas tendências do mercado podem alterar a distribuição dos dados.
- Problemas de recolha de dados: As modificações na calibração do sensor, as alterações nas fontes de dados ou os erros no pipeline de dados podem introduzir desvios. Por exemplo, uma câmara utilizada para a deteção de objectos pode ser substituída ou deslocada.
- Alterações no processamento de dados a montante: As alterações na forma como os dados são recolhidos, agregados ou pré-processados antes de chegarem ao modelo podem causar desvios.
- Alterações de caraterísticas: A relevância ou definição das caraterísticas de entrada pode mudar ao longo do tempo (feature drift).
- Altera o conceito: A relação entre as caraterísticas de entrada e a variável-alvo pode mudar (desvio de conceito), o que significa que os padrões subjacentes que o modelo aprendeu já não são válidos.
Desvio de dados vs. conceitos relacionados
A deriva de dados está principalmente relacionada com as alterações na distribuição dos dados de entrada. É diferente de:
- Desvio de conceito: Refere-se especificamente a alterações na relação entre as caraterísticas de entrada e a variável alvo. Embora ocorra frequentemente juntamente com a deriva de dados, trata-se de uma alteração no conceito subjacente que está a ser modelado.
- Deteção de anomalias: Concentra-se na identificação de pontos de dados individuais que são raros ou invulgares em comparação com a norma. A deriva de dados, por outro lado, descreve uma mudança na distribuição geral dos dados, e não apenas valores atípicos isolados.
Aplicações no mundo real
O desvio de dados tem impacto em vários domínios em que os modelos de ML são implementados:
- Retalho: As preferências dos clientes e os padrões de compra mudam, especialmente sazonalmente. Os sistemas de recomendação e os modelos de gestão de inventário devem adaptar-se a estas mudanças para se manterem eficazes. Por exemplo, a procura de vestuário de inverno diminui à medida que o verão se aproxima, causando desvios nos dados de vendas.
- Cuidados de saúde: Na análise de imagens médicas, as alterações no equipamento de imagiologia, nos protocolos de digitalização ou nos dados demográficos dos pacientes podem causar desvios. Um modelo treinado para detetar tumores usando imagens de um tipo de scanner pode ter um desempenho ruim em imagens de uma máquina mais nova. Os modelosYOLO Ultralytics podem ser utilizados para tarefas como a deteção de tumores, tornando vital a monitorização da deriva.
- Finanças: Os modelos de deteção de fraudes enfrentam uma deriva constante à medida que os autores das fraudes desenvolvem novas tácticas. As mudanças económicas também podem ter impacto nos modelos de previsão de incumprimento de empréstimos, à medida que o comportamento do mutuário muda. Os modelos de visão por computador em finanças necessitam de actualizações regulares.
Detetar e mitigar o desvio de dados
Detetar e tratar o desvio de dados envolve várias técnicas:
- Deteção:
- Monitoriza as principais métricas: Acompanha as métricas de desempenho do modelo(precisão, recall, F1-score) e as métricas de dados (como distribuições de recursos) ao longo do tempo. Ferramentas como Prometheus e Grafana podem ser usadas para visualização.
- Testes estatísticos: Utiliza métodos como o teste de Kolmogorov-Smirnov ou o Índice de Estabilidade Populacional (PSI) para comparar as distribuições entre os dados de formação e os dados de produção actuais.
- Ferramentas de deteção de desvios: Utiliza bibliotecas como Evidently AI ou NannyML concebidas especificamente para a deteção de desvios. Plataformas como o Ultralytics HUB podem ajudar a gerir conjuntos de dados e monitorizar o desempenho do modelo ao longo do tempo.
- Mitigação:
- Retreinamento do modelo: Treina periodicamente o modelo com dados recentes. Isso pode envolver um retreinamento completo ou atualizações incrementais. Dicas para treinamento de modelos podem ajudar a otimizar esse processo.
- Aprendizagem adaptativa: Utiliza modelos concebidos para se adaptarem às mudanças na distribuição de dados online.
- Aumento dos dados: Aplicar técnicas para tornar o modelo mais robusto a variações durante o treino. Explora estratégias de aumento de dados.
Gerir eficazmente a deriva de dados é um processo contínuo vital para garantir que os sistemas de IA permanecem fiáveis e fornecem valor durante o seu tempo de vida operacional.