Glossário

Compensação do desvio e da variância

Domina o compromisso entre desvio e variância na aprendizagem automática. Aprende técnicas para equilibrar a precisão e a generalização para um desempenho ótimo do modelo!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Na aprendizagem automática, o compromisso entre enviesamento e variância é um conceito fundamental que afecta a capacidade de generalização de um modelo a partir dos dados de treino para dados não vistos. Refere-se ao equilíbrio entre duas fontes de erro que impedem os algoritmos de aprendizagem supervisionada de generalizar para além do seu conjunto de treino: enviesamento e variância. Para obter um bom desempenho do modelo, é necessário gerir eficazmente este compromisso, assegurando que o modelo não é nem demasiado simples nem demasiado complexo.

Compreender o desvio e a variância

O enviesamento é o erro introduzido pela aproximação de um problema do mundo real, que pode ser complexo, através de um modelo simplificado. Um modelo com um elevado enviesamento faz suposições significativas sobre os dados subjacentes, conduzindo a erros sistemáticos. Tende a não se ajustar aos dados de treino, não conseguindo captar os seus padrões essenciais. Isto resulta num fraco desempenho tanto no conjunto de treino como nos novos dados não vistos. Por exemplo, se um modelo linear for utilizado para representar uma relação não linear, terá inerentemente um viés elevado.

A variância, por outro lado, é o erro introduzido pela sensibilidade do modelo a pequenas flutuações nos dados de treino. Um modelo de elevada variância capta não só os padrões subjacentes, mas também o ruído e as flutuações aleatórias presentes no conjunto de treino. Um modelo deste tipo tem um desempenho excecional nos dados de treino, mas fraco em novos dados, uma vez que não consegue generalizar. Esta situação é conhecida como sobreajuste. Um exemplo de um modelo de elevada variância é uma árvore de decisão profunda que se ajusta demasiado bem aos dados de treino, incluindo o seu ruído.

A troca

O compromisso entre enviesamento e variância surge porque, normalmente, a redução do enviesamento aumenta a variância e vice-versa. Um modelo simples com alta polarização e baixa variância pode não capturar a complexidade dos dados, enquanto um modelo complexo com baixa polarização e alta variância pode se ajustar muito bem aos dados de treinamento, incluindo seu ruído. O objetivo é encontrar o equilíbrio certo que minimize o erro total, que é a soma do enviesamento e da variância, mais o erro irredutível que não pode ser eliminado independentemente da complexidade do modelo.

Exemplos do mundo real

Exemplo 1: Previsão do preço da habitação

Considera uma empresa imobiliária que utiliza a aprendizagem automática para prever os preços das casas. Se a empresa utilizar um modelo de regressão linear simples, poderá assumir que os preços das casas aumentam linearmente com o tamanho, negligenciando outros factores importantes como a localização, o número de divisões e a idade da casa. Este modelo de elevado enviesamento provavelmente não se ajustaria aos dados, resultando em previsões fracas. Por outro lado, se a empresa utilizar um modelo demasiado complexo, como uma rede neural profunda, com demasiados parâmetros e regularização insuficiente, pode ajustar perfeitamente os dados de treino, incluindo outliers e ruído. Este modelo de alta variância teria um desempenho fraco em dados novos e não vistos, não conseguindo generalizar bem. A compensação entre viés e variância envolve encontrar um modelo que equilibre esses extremos, como um modelo moderadamente complexo com regularização adequada, para obter um bom desempenho preditivo nos dados de treinamento e nos novos dados.

Exemplo 2: Diagnóstico médico

Numa aplicação de cuidados de saúde, um hospital pode utilizar a aprendizagem automática para diagnosticar uma determinada doença com base nos sintomas do doente e nos resultados dos testes. Um modelo com elevado enviesamento pode simplificar demasiado os critérios de diagnóstico, conduzindo a muitos casos perdidos (falsos negativos) e a diagnósticos incorrectos (falsos positivos). Por exemplo, o diagnóstico de uma doença complexa com base apenas na presença de um único sintoma resultaria provavelmente num elevado enviesamento. Por outro lado, um modelo de elevada variância pode utilizar um grande número de caraterísticas, incluindo caraterísticas irrelevantes, e ajustar-se demasiado aos dados de treino. Isto pode levar a um excelente desempenho no conjunto de treino mas a uma fraca generalização a novos doentes, resultando em diagnósticos pouco fiáveis. Equilibrar o compromisso entre viés e variância neste contexto implica selecionar um modelo que considere as caraterísticas mais relevantes e utilize técnicas como a validação cruzada para garantir uma boa generalização.

Gerir o compromisso

Várias técnicas podem ajudar a gerir o compromisso entre o desvio e a variância:

  • Regularização: A introdução de uma penalização para a complexidade do modelo pode ajudar a reduzir a variância sem aumentar significativamente a tendência. Técnicas como a regularização L1 e L2 adicionam um termo de penalização à função de perda, desencorajando modelos demasiado complexos.
  • Validação cruzada: Técnicas como a validação cruzada k-fold ajudam a avaliar a generalização do modelo a um conjunto de dados independente. Ao dividir os dados em vários subconjuntos e treinar o modelo em diferentes combinações desses subconjuntos, os profissionais podem obter uma melhor estimativa do desempenho do modelo em dados não vistos.
  • Métodos de conjunto: A combinação de previsões de vários modelos pode ajudar a reduzir a variação e melhorar a generalização. Técnicas como bagging e boosting criam diversos modelos e agregam suas previsões, levando a um modelo geral mais robusto. Saiba mais sobre os métodos de conjunto.
  • Seleção de caraterísticas: Selecionar cuidadosamente as caraterísticas relevantes e reduzir a dimensionalidade dos dados pode ajudar a gerir o compromisso. A remoção de caraterísticas irrelevantes ou redundantes reduz o risco de sobreajuste e melhora a interpretabilidade do modelo. Sabe mais sobre a redução da dimensionalidade.
  • Ajuste de hiperparâmetros: A otimização dos hiperparâmetros do modelo pode ter um impacto significativo no equilíbrio entre a polarização e a variância. O ajuste de hiperparâmetros envolve a seleção do melhor conjunto de hiperparâmetros que minimiza o erro total. Técnicas como pesquisa em grade e pesquisa aleatória podem automatizar esse processo.

Conclusão

O compromisso entre viés e variância é um conceito crítico na aprendizagem automática que afecta o desempenho e a generalização dos modelos. Compreender e gerir esta compensação é essencial para criar modelos que tenham um bom desempenho tanto nos dados de treino como em dados novos e não vistos. Ao empregar técnicas como a regularização, a validação cruzada, os métodos de conjunto, a seleção de caraterísticas e a afinação de hiperparâmetros, os profissionais podem desenvolver modelos robustos que conseguem o equilíbrio certo entre o enviesamento e a variância. Ultralytics oferece ferramentas e estruturas como Ultralytics YOLO e Ultralytics HUB que ajudam a gerir este compromisso, permitindo o desenvolvimento de soluções de IA precisas e fiáveis. Explora mais no sítio WebUltralytics . Para um mergulho mais profundo nos últimos avanços em IA e visão computacional, visita o blogueUltralytics .

Para leres mais sobre o compromisso entre polarização e variância, podes consultar este artigo da Wikipédia sobre o tema.

Lê tudo