Glossário

Dados de validação

Optimiza os modelos de aprendizagem automática com dados de validação para evitar o sobreajuste, afinar os hiperparâmetros e garantir um desempenho robusto no mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os dados de validação são uma parte crucial do processo de aprendizagem automática, utilizados para afinar o desempenho de um modelo e evitar o sobreajuste. Funciona como uma verificação durante o treino, garantindo que o modelo generaliza bem para dados não vistos. Ao avaliar o modelo em dados de validação, os profissionais podem tomar decisões informadas sobre a arquitetura do modelo e os hiperparâmetros, conduzindo a sistemas de IA mais robustos e fiáveis.

O que são dados de validação?

Os dados de validação são um subconjunto do conjunto de dados original que é posto de lado durante a fase de formação do modelo. É utilizado para avaliar o desempenho de um modelo de aprendizagem automática durante a formação. Ao contrário dos dados de formação, com os quais o modelo aprende diretamente, os dados de validação fornecem um ponto de avaliação independente. Isto ajuda a monitorizar a capacidade de generalização do modelo - a sua capacidade de desempenho exato em dados novos e não vistos. O conjunto de validação é diferente dos dados de teste, que são utilizados apenas no final do processo de desenvolvimento do modelo para fornecer uma avaliação final e imparcial do modelo treinado.

Importância dos dados de validação

O principal papel dos dados de validação é a afinação de hiperparâmetros e a seleção de modelos. Durante o treino, um modelo de aprendizagem automática pode ser ajustado com base no seu desempenho no conjunto de validação. Por exemplo, se o desempenho do modelo no conjunto de validação começar a degradar-se enquanto continua a melhorar no conjunto de treino, é um sinal de sobreajuste. Nesses casos, podem ser aplicados ajustes como a regularização ou a camada de abandono e a sua eficácia pode ser avaliada utilizando os dados de validação. Técnicas como a validação cruzada K-Fold também podem ser utilizadas para tirar o máximo partido de dados limitados tanto para a formação como para a validação. A monitorização das métricas de validação, como a exatidão ou a precisão média média (mAP), ajuda a decidir quando parar o treino, muitas vezes implementado através de uma paragem antecipada para evitar o sobreajuste e poupar recursos computacionais.

Dados de validação vs. Dados de treino e teste

Nos fluxos de trabalho de aprendizagem automática, os dados são normalmente divididos em três conjuntos: treino, validação e teste.

  • Dados de treino: Estes são os dados com os quais o modelo aprende. É usado para ajustar o weights and biases do modelo para minimizar a função de perda.
  • Dados de validação: Utilizados durante o treino para avaliar o desempenho do modelo e ajustar os hiperparâmetros. Ajuda a evitar o sobreajuste e orienta a seleção do modelo.
  • Dados de teste: Utilizados apenas depois de o modelo estar totalmente treinado para fornecer uma estimativa final e imparcial do desempenho do modelo em dados não vistos. Simula cenários do mundo real e avalia a capacidade de generalização do modelo.

A principal diferença é a sua utilização. Os dados de treino são para aprendizagem, os dados de validação são para afinação e monitorização durante o treino e os dados de teste são para a avaliação final após o treino. A utilização de conjuntos de dados separados garante uma avaliação imparcial do verdadeiro desempenho do modelo. Para uma compreensão mais profunda do pré-processamento de dados para a aprendizagem automática, os recursos sobre o pré-processamento de dados podem ser úteis.

Aplicações dos dados de validação

Os dados de validação são essenciais em todas as aplicações de aprendizagem automática, incluindo Ultralytics YOLO modelos. Eis alguns exemplos:

  1. Deteção de objectos em veículos autónomos: No treino de um modelo de deteção de objectos como o Ultralytics YOLO para veículos autónomos, os dados de validação, que consistem em imagens e vídeos não utilizados no treino, ajudam a garantir que o modelo detecta com precisão peões, sinais de trânsito e outros veículos em condições de condução diversas e inéditas. Ao monitorizar o desempenho dos dados de validação, os engenheiros podem afinar o modelo para que se generalize bem a novos cenários rodoviários, o que é fundamental para a segurança. Por exemplo, durante o YOLOv8 treinamento do modelo, as métricas de validação são continuamente rastreadas para otimizar os hiperparâmetros do modelo.

  2. Análise de imagens médicas: Na análise de imagens médicas para diagnóstico de doenças, os dados de validação são utilizados para garantir que os modelos de IA identificam com precisão anomalias (como tumores ou lesões) em exames médicos sem se ajustarem demasiado aos casos de treino. Por exemplo, quando se treina um modelo para detetar tumores cerebrais utilizando imagens de ressonância magnética, um conjunto de validação separado de exames de ressonância magnética ajuda a aperfeiçoar a capacidade do modelo para generalizar a exames de novos pacientes, aumentando a fiabilidade do diagnóstico. Este processo é crucial em aplicações como a deteção de tumores, em que a exatidão do modelo tem um impacto direto no tratamento dos doentes.

Utilizando corretamente os dados de validação, os profissionais da aprendizagem automática podem desenvolver modelos que não só são exactos nos dados de treino, mas também robustos e fiáveis em aplicações do mundo real.

Lê tudo