Glossário

Desvio de dados

Descobre como o desvio de dados afecta os modelos de ML, os tipos de desvio, as estratégias de deteção e ferramentas como o Ultralytics HUB para garantir a fiabilidade da IA.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A deriva de dados refere-se ao fenómeno em que as propriedades estatísticas dos dados de entrada mudam ao longo do tempo, levando a uma potencial degradação do desempenho dos modelos de aprendizagem automática (ML). Isto ocorre quando os dados utilizados durante o treino do modelo já não representam com exatidão os dados encontrados durante a implementação. O desvio de dados é um conceito crítico para manter o desempenho e a fiabilidade dos sistemas de IA, especialmente em ambientes dinâmicos em que os dados evoluem frequentemente.

Tipos de desvio de dados

  1. Desvio de covariável: Ocorre quando a distribuição das caraterísticas de entrada (variáveis independentes) muda, mas a relação entre as entradas e as saídas permanece a mesma. Por exemplo, um modelo que prevê os preços das casas pode encontrar uma mudança na metragem quadrada média das casas nos novos dados em comparação com os dados de treino.
  2. Desvio de conceito: Acontece quando a relação entre as caraterísticas de entrada e a variável alvo (variável dependente) muda. Por exemplo, na deteção de fraudes, podem surgir novos tipos de fraude, alterando os padrões que o modelo foi treinado para detetar.

  3. Deslocamento da probabilidade anterior: Este tipo de desvio ocorre quando a distribuição da variável-alvo se altera ao longo do tempo. Por exemplo, na previsão do churn de clientes, a proporção de clientes com probabilidade de churn pode aumentar devido a tendências de mercado ou factores externos.

Relevância da deriva de dados

O desvio de dados apresenta desafios significativos para as aplicações de IA e ML, uma vez que pode levar a um desempenho inferior do modelo, previsões incorrectas e até mesmo a falhas do sistema em aplicações críticas. A monitorização e o tratamento do desvio de dados são essenciais para garantir que os modelos permanecem eficazes e fiáveis ao longo do tempo. Ferramentas como o Ultralytics HUB para monitorização e reciclagem de modelos fornecem capacidades para detetar e mitigar o desvio de forma proactiva.

Estratégias para lidar com o desvio de dados

  1. Deteção de desvio de dados: Utiliza testes estatísticos e ferramentas de monitorização para identificar alterações na distribuição de dados. Ferramentas como Weights & Biases para acompanhar o desempenho do modelo podem ajudar a monitorizar as métricas ao longo do tempo.

  2. Retreinamento regular de modelos: Treina periodicamente os modelos utilizando dados actualizados para os alinhar com a distribuição de dados atual. Isto é particularmente útil em indústrias como a análise do comportamento do cliente de retalho com IA, onde os padrões evoluem frequentemente.

  3. Aprendizagem adaptativa: Implementa técnicas de aprendizagem adaptativa em que os modelos se actualizam de forma incremental com novos dados, reduzindo a necessidade de reciclagem completa.

  4. Validação em dados em tempo real: Testa continuamente os modelos com dados de validação de ambientes reais para monitorizar e ajustar o desempenho.

Exemplos de desvio de dados em aplicações do mundo real

  1. Cuidados de saúde: Nas aplicações médicas, o desvio de dados pode ocorrer devido a alterações na demografia dos pacientes ou a avanços nas tecnologias de diagnóstico. Por exemplo, um modelo treinado em equipamento de imagiologia mais antigo pode ter um desempenho inferior com dados de máquinas mais recentes e de maior resolução. Sabe mais sobre o impacto da IA nos avanços dos cuidados de saúde.

  2. Veículos autónomos: O desvio de dados é comum na condução autónoma devido a alterações sazonais, construção de estradas ou novos padrões de tráfego. Por exemplo, um modelo treinado em condições de verão pode ter dificuldades com imagens de estradas no inverno. Descobre mais sobre a visão computacional em carros de condução autónoma.

Distinção de conceitos relacionados

  • Sobreajuste: Enquanto o sobreajuste se refere à incapacidade de um modelo para generalizar a partir de dados de treino para dados não vistos, o desvio de dados diz respeito a alterações nos dados de entrada depois de o modelo ter sido implementado. Sabe mais sobre a definição e os impactos do sobreajuste.

  • Monitorização de modelos: A deteção de desvios de dados é um subconjunto de práticas mais amplas de monitorização de modelos, que incluem o acompanhamento da precisão do modelo, da latência e de outras métricas de desempenho.

Ferramentas para gerir a deriva de dados

O desvio de dados é um desafio inevitável no ciclo de vida dos modelos de aprendizagem automática, especialmente em ambientes dinâmicos. A monitorização proactiva, a reciclagem e a utilização de ferramentas robustas são essenciais para garantir que os modelos permanecem precisos e eficazes em aplicações do mundo real.

Lê tudo