Glossário

Desvio de dados

Descobre os tipos, as causas e as soluções para o desvio de dados na aprendizagem automática. Aprende a detetar e a mitigar o desvio de dados para modelos de IA robustos.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O desvio de dados é um desafio comum na aprendizagem automática, em que as propriedades estatísticas da variável-alvo, ou as caraterísticas de entrada, mudam ao longo do tempo. Isto significa que os dados em que um modelo foi treinado se tornam diferentes dos dados em que é utilizado para fazer previsões no mundo real. Compreender e tratar o desvio de dados é crucial para manter a precisão e a fiabilidade dos modelos de aprendizagem automática, especialmente em ambientes dinâmicos.

O que causa a deriva de dados?

Diversos factores podem contribuir para o desvio de dados, que podem ser classificados em termos gerais em:

  • Alterações no mundo real: O ambiente subjacente que gera os dados pode mudar. Por exemplo, no retalho, as preferências dos consumidores podem mudar devido a novas tendências ou condições económicas. Na condução autónoma, as alterações na infraestrutura rodoviária ou nos padrões meteorológicos podem alterar os dados de entrada dos modelos de perceção.
  • Alterações nos dados a montante: As modificações nas fontes de dados ou na forma como os dados são recolhidos e processados podem introduzir desvios. Isto pode incluir alterações na calibração do sensor, actualizações do esquema de dados ou alterações nos pipelines de engenharia de caraterísticas.
  • Desvio de conceito: A relação entre as caraterísticas de entrada e a própria variável-alvo pode evoluir. Por exemplo, na deteção de fraudes, as actividades fraudulentas podem tornar-se mais sofisticadas, alterando os padrões que o modelo aprendeu a identificar.
  • Variações sazonais: Muitos conjuntos de dados apresentam padrões sazonais. Embora previsíveis, estas alterações recorrentes podem ainda ser consideradas uma forma de desvio se não forem devidamente tidas em conta no modelo e na estratégia de monitorização.

Tipos de desvio de dados

O desvio de dados pode manifestar-se de diferentes formas, cada uma delas exigindo estratégias específicas de monitorização e atenuação:

  • Desvio de caraterísticas: Alterações na distribuição das caraterísticas de entrada. Por exemplo, o rendimento médio dos candidatos a empréstimos pode mudar ao longo do tempo, ou a distribuição da intensidade dos pixels nas imagens utilizadas para a análise de imagens médicas pode mudar devido a novos equipamentos de imagiologia.
  • Desvio do objetivo: Alterações na distribuição da variável-alvo que o modelo está a tentar prever. Num modelo de análise de sentimentos, o sentimento geral expresso nos comentários dos clientes pode tornar-se mais negativo ou positivo ao longo do tempo.
  • Desvio de conceito: Como já foi referido, trata-se de alterações na relação entre as caraterísticas e a variável-alvo. Um modelo treinado para prever a rotatividade de clientes pode tornar-se menos preciso se o comportamento do cliente e os factores de rotatividade evoluírem.

Porque é que a deriva de dados é importante

O desvio de dados tem um impacto direto no desempenho dos modelos de aprendizagem automática. Quando ocorre a deriva, os modelos treinados em dados mais antigos podem tornar-se menos precisos em dados novos e não vistos. Esta degradação do desempenho pode levar a previsões incorrectas, a tomadas de decisão erradas e, em última análise, a um valor comercial reduzido ou mesmo a falhas críticas em aplicações como a IA em carros autónomos. A monitorização contínua do modelo é essencial para detetar desvios e desencadear as acções necessárias para manter a precisão do modelo.

Aplicações reais da deriva de dados

O desvio de dados é relevante em vários domínios em que a aprendizagem automática é aplicada:

  1. Comércio eletrónico e retalho: Nos sistemas de recomendação, as preferências dos clientes e as tendências dos produtos mudam constantemente. Por exemplo, durante as épocas festivas, a popularidade de determinados produtos aumenta, causando desvios nos dados de comportamento do utilizador e exigindo que os modelos se adaptem para fornecer recomendações relevantes. Os modelos que utilizam a IA para uma gestão mais inteligente do inventário de retalho também devem ter em conta estas mudanças para otimizar os níveis de stock.

  2. Serviços financeiros: Os modelos de deteção de fraude são altamente susceptíveis ao desvio de dados. Os autores de fraudes adaptam continuamente as suas tácticas para evitar a deteção, o que leva à deriva de conceitos. Os modelos de previsão de incumprimento de empréstimos também podem sofrer desvios devido a alterações económicas que afectam a capacidade dos mutuários para pagar os empréstimos.

  3. Cuidados de saúde: A IA em aplicações de cuidados de saúde, como o diagnóstico de doenças a partir de imagens médicas, pode ser afetada por alterações nos protocolos de imagiologia, na demografia dos pacientes ou no aparecimento de novas variantes de doenças, o que contribui para o desvio de dados. A monitorização da deriva é crucial para garantir a fiabilidade contínua destas ferramentas de diagnóstico.

Detetar e mitigar o desvio de dados

Podem ser utilizadas várias técnicas para detetar e atenuar o desvio de dados:

  • Métodos estatísticos de deteção de desvios: Técnicas como o teste de Kolmogorov-Smirnov ou o Índice de Estabilidade da População (PSI) podem comparar estatisticamente as distribuições dos dados de treino e dos dados reais para identificar mudanças significativas.
  • Monitorizar as métricas de desempenho do modelo: O acompanhamento de métricas como a exatidão, a precisão e a revocação ao longo do tempo pode indicar desvios se o desempenho começar a degradar-se. YOLO métricas de desempenho como o mAP e o IoU são cruciais para os modelos de deteção de objectos e devem ser monitorizados quanto a desvios.
  • Reciclagem de modelos: Quando é detectado um desvio, a reciclagem do modelo com dados recentes é uma estratégia de atenuação comum. Isto permite que o modelo aprenda os novos padrões de dados e se adapte ao ambiente alterado. Plataformas como Ultralytics HUB simplificam o processo de reciclagem e reimplantação de Ultralytics YOLO modelos.
  • Modelos adaptativos: O desenvolvimento de modelos que são inerentemente mais robustos à deriva, como os modelos de aprendizagem em linha que se actualizam continuamente à medida que chegam novos dados, pode ser uma abordagem proactiva.

Gerir eficazmente a deriva de dados é um processo contínuo que requer uma monitorização cuidadosa, mecanismos de deteção robustos e estratégias de atualização de modelos flexíveis para garantir que os sistemas de IA permanecem precisos e valiosos ao longo do tempo.

Lê tudo