Glossário

Compensação do desvio e da variância

Domina o compromisso entre desvio e variância na aprendizagem automática. Aprende técnicas para equilibrar a precisão e a generalização para um desempenho ótimo do modelo!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O compromisso entre enviesamento e variância é um conceito fundamental na aprendizagem automática supervisionada (ML) que descreve a tensão entre a capacidade de um modelo para minimizar erros resultantes de pressupostos incorrectos (enviesamento) e a sua sensibilidade a variações nos dados de treino (variância). Encontrar o equilíbrio certo é crucial para construir modelos que generalizem bem para dados novos e não vistos. Um modelo com um viés elevado presta pouca atenção aos dados de treino e simplifica demasiado os padrões subjacentes, enquanto um modelo com uma variância elevada presta demasiada atenção, memorizando essencialmente os dados de treino, incluindo o seu ruído.

Compreender o preconceito

O enviesamento representa o erro introduzido pela aproximação de um problema do mundo real, que pode ser complexo, por um modelo muito mais simples. Um enviesamento elevado pode fazer com que um algoritmo não veja relações relevantes entre as caraterísticas e os resultados pretendidos, conduzindo a um fenómeno designado por subadaptação. Um modelo subajustado tem um desempenho fraco tanto nos dados de treino como nos dados de teste não vistos, porque não consegue captar a tendência subjacente. Os modelos simples, como a regressão linear aplicada a dados altamente não lineares, apresentam frequentemente um viés elevado. As técnicas para reduzir o viés geralmente envolvem o aumento da complexidade do modelo, como adicionar mais recursos ou usar algoritmos mais sofisticados, como os encontrados no Deep Learning (DL).

Compreender o desvio

A variância representa a sensibilidade do modelo a flutuações nos dados de treino. É a quantidade pela qual a previsão do modelo mudaria se o treinássemos num conjunto de dados de treino diferente. Uma variância elevada pode fazer com que um algoritmo modele o ruído aleatório nos dados de treino, em vez dos resultados pretendidos, levando a um sobreajuste. Um modelo sobreajustado tem um desempenho extremamente bom nos dados de treino, mas fraco em dados de teste não vistos, porque não generaliza. Os modelos complexos, como as redes neurais profundas com muitas camadas ou a regressão polinomial de alto grau, são propensos a uma variância elevada. A redução da variância envolve frequentemente a simplificação do modelo, a utilização de mais dados de treino ou a aplicação de técnicas de regularização.

A troca

Idealmente, pretendemos um modelo com baixo enviesamento e baixa variância. No entanto, estas duas fontes de erro estão frequentemente relacionadas de forma inversa: a diminuição do enviesamento tende a aumentar a variância e vice-versa. O aumento da complexidade do modelo reduz normalmente o enviesamento, mas aumenta a variância. Inversamente, a diminuição da complexidade do modelo aumenta a tendência, mas reduz a variância. O objetivo é encontrar o nível ótimo de complexidade do modelo que minimize o erro total (soma do desvio ao quadrado, variância e erro irredutível) em dados não vistos. Isto envolve um equilíbrio cuidadoso entre o enviesamento e a variância, muitas vezes visualizado como uma curva em forma de U para o erro total versus a complexidade do modelo, conforme discutido em recursos como "The Elements of Statistical Learning".

Gerir o compromisso

Várias técnicas ajudam a gerir o compromisso entre a polarização e a variância:

  • Seleção de modelos: Escolhe os algoritmos adequados à complexidade dos dados. Os problemas simples podem utilizar modelos lineares, enquanto as tarefas complexas de Visão por Computador (CV) podem exigir modelos avançados como o Ultralytics YOLO. A comparação de modelos como o YOLO11 e o YOLOv10 implica ter em conta esta troca.
  • Regularização: Técnicas como a regularização L1 e L2 adicionam uma penalização à função de perda para a complexidade do modelo, desencorajando o sobreajuste e reduzindo a variância.
  • Validação cruzada: Métodos como o K-Fold Cross-Validation fornecem uma estimativa mais robusta do desempenho do modelo em dados não vistos, ajudando a selecionar modelos que equilibram bem o enviesamento e a variância.
  • Engenharia de caraterísticas: A seleção de caraterísticas relevantes ou a criação de novas caraterísticas pode ajudar a simplificar o problema de aprendizagem do modelo, reduzindo potencialmente tanto o enviesamento como a variância. Para mais informações, consulta o nosso guia sobre Recolha e Anotação de Dados.
  • Métodos de conjunto: Técnicas como Bagging (por exemplo, Random Forests) e Boosting (por exemplo, Gradient Boosting Machines) combinam vários modelos para melhorar o desempenho geral, reduzindo frequentemente a variância (Bagging) ou o enviesamento (Boosting). Explora os conceitos de modelos de conjunto.
  • Aumento dos dados: Aumentar o tamanho efetivo e a diversidade dos dados de treino utilizando técnicas como o aumento de dados pode ajudar a reduzir a variância, tornando o modelo mais robusto às variações.

Exemplos do mundo real

  1. Análise de imagens médicas: Na deteção de tumores através de dados de imagens médicas, um modelo com um viés elevado pode não identificar sinais subtis de cancro em fase inicial (subadaptação). Por outro lado, um modelo de elevada variância pode assinalar anomalias benignas como cancerígenas devido a uma adaptação excessiva ao ruído ou a exemplos específicos de doentes no conjunto de treino. Conseguir um bom equilíbrio garante uma deteção fiável em diversos exames de doentes. Ferramentas como os modelosYOLO Ultralytics são frequentemente ajustadas para equilibrar estes factores.
  2. Manutenção Preditiva: Na indústria transformadora, a previsão de avarias de máquinas requer um modelo que generalize bem. Um modelo com um elevado enviesamento pode prever as avarias demasiado tarde ou não as detetar totalmente. Um modelo de elevada variância pode acionar falsos alarmes com base em flutuações operacionais normais captadas durante a formação. Equilibrar o compromisso garante alertas de manutenção atempados sem tempo de inatividade excessivo devido a falsos positivos, tal como explorado nas estratégias de manutenção preditiva.

Conceitos relacionados

É importante distinguir o compromisso entre o enviesamento e a variância de outras formas de enviesamento na IA:

Enquanto o compromisso entre o enviesamento e a variância se centra no erro de generalização do modelo decorrente da complexidade do modelo e da sensibilidade dos dados, o enviesamento da IA e o enviesamento do conjunto de dados dizem respeito a questões de equidade e de representação. A gestão da compensação visa otimizar as métricas de desempenho preditivo, como a exatidão ou a precisão média média (mAP), enquanto a abordagem do enviesamento da IA/do conjunto de dados visa garantir resultados equitativos. Podes saber mais sobre métricas de desempenho no nosso guiaYOLO Performance Metrics.

Lê tudo