Domina o compromisso entre desvio e variância na aprendizagem automática. Aprende técnicas para equilibrar a precisão e a generalização para um desempenho ótimo do modelo!
O compromisso entre enviesamento e variância é um conceito central na aprendizagem automática supervisionada (ML) que lida com o desafio de criar modelos que tenham um bom desempenho não só nos dados em que foram treinados, mas também em dados novos e não vistos. Descreve uma tensão inerente entre dois tipos de erros que um modelo pode cometer: erros devidos a pressupostos demasiado simplistas (enviesamento) e erros devidos a uma sensibilidade excessiva aos dados de treino (variância). Para se conseguir uma boa generalização, é necessário encontrar um equilíbrio cuidadoso entre estas duas fontes de erro.
O enviesamento refere-se ao erro introduzido pela aproximação de um problema complexo do mundo real com um modelo potencialmente mais simples. Um modelo com um viés elevado faz suposições fortes sobre os dados, ignorando padrões potencialmente complexos. Isto pode levar a um subajuste, em que o modelo não consegue captar as tendências subjacentes nos dados, resultando num fraco desempenho tanto nos dados de treino como nos dados de teste. Por exemplo, tentar modelar uma relação altamente curvilínea utilizando uma regressão linear simples resultaria provavelmente num viés elevado. A redução do enviesamento envolve frequentemente o aumento da complexidade do modelo, como a utilização de algoritmos mais sofisticados encontrados na aprendizagem profunda (DL) ou a adição de caraterísticas mais relevantes através da engenharia de caraterísticas.
A variância refere-se ao erro introduzido porque o modelo é demasiado sensível às flutuações específicas, incluindo o ruído, presentes nos dados de treino. Um modelo com variância elevada aprende demasiado bem os dados de treino, essencialmente memorizando-os em vez de aprender os padrões gerais. Isto leva a um sobreajuste, em que o modelo tem um desempenho excecionalmente bom nos dados de treino, mas fraco em dados novos e não vistos, porque não aprendeu a generalizar. Os modelos complexos, como as redes neurais profundas (NN) com muitos parâmetros ou a regressão polinomial de alto grau, são mais propensos a uma variância elevada. As técnicas para reduzir a variação incluem a simplificação do modelo, a coleta de dados de treinamento mais diversificados (consulte o guia Coleta de dados e anotação) ou o uso de métodos como a regularização.
O cerne do tradeoff viés-variância é a relação inversa entre viés e variância no que diz respeito à complexidade do modelo. Ao diminuir o viés tornando um modelo mais complexo (por exemplo, adicionando camadas a uma rede neural), normalmente aumenta a sua variância. Por outro lado, se simplificares um modelo para diminuir a variância, muitas vezes aumentas o seu enviesamento. O modelo ideal encontra o ponto ideal que minimiza o erro total (uma combinação de viés, variância e erro irredutível) em dados não vistos. Este conceito é fundamental na aprendizagem estatística, tal como detalhado em textos como "The Elements of Statistical Learning".
A gestão bem sucedida do compromisso entre o desvio e a variância é fundamental para o desenvolvimento de modelos de ML eficazes. Várias técnicas podem ajudar-te:
É fundamental distinguir o compromisso entre o enviesamento e a variância de outros tipos de enviesamento discutidos na IA:
Enquanto que a compensação entre o enviesamento e a variância se centra nas propriedades estatísticas do erro do modelo relacionadas com a complexidade e a generalização (afectando métricas como a precisão ou o mAP), o enviesamento da IA, o enviesamento do conjunto de dados e o enviesamento algorítmico dizem respeito a questões de justiça, equidade e representação. Abordar o tradeoff visa otimizar o desempenho preditivo (ver guiaYOLO Performance Metrics), enquanto que abordar outros enviesamentos visa garantir resultados éticos e equitativos. Ferramentas como o Ultralytics HUB podem ajudar a gerir conjuntos de dados e processos de formação(Cloud Training), o que, indiretamente, ajuda a monitorizar aspectos relacionados com o desempenho e potenciais problemas com os dados.