Glossário

Dados de teste

Descobre a importância dos dados de teste na IA, o seu papel na avaliação do desempenho do modelo, na deteção de sobreajustes e na garantia de fiabilidade no mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os dados de teste são um componente crucial no ciclo de vida do desenvolvimento da aprendizagem automática (ML). Refere-se a um conjunto de dados independente, separado dos conjuntos de treino e validação, utilizado exclusivamente para a avaliação final do desempenho de um modelo após a conclusão das fases de treino e afinação. Este conjunto de dados contém pontos de dados que o modelo nunca encontrou antes, fornecendo uma avaliação imparcial do desempenho do modelo em dados novos do mundo real. O principal objetivo da utilização de dados de teste é estimar a capacidade de generalização do modelo - a sua capacidade de atuar com precisão em entradas não vistas.

Importância dos dados de teste

A verdadeira medida do sucesso de um modelo de ML reside na sua capacidade de lidar com dados para os quais não foi explicitamente treinado. Os dados de teste servem como ponto de verificação final, oferecendo uma avaliação objetiva do desempenho do modelo. Sem um conjunto de testes dedicado, existe um risco elevado de sobreajuste, em que um modelo aprende demasiado bem os dados de treino, incluindo o seu ruído e padrões específicos, mas não consegue generalizar para novos dados. A utilização de dados de teste ajuda a garantir que as métricas de desempenho comunicadas reflectem as capacidades esperadas do modelo no mundo real, criando confiança antes da implementação do modelo. Este passo de avaliação final é fundamental para comparar diferentes modelos ou abordagens de forma fiável, como a comparação entre YOLOv8 e o YOLOv9.

Caraterísticas principais

Para serem eficazes, os dados de teste devem possuir determinadas caraterísticas:

  • Independência: Deve estar estritamente separado dos dados utilizados para treino e validação. O modelo nunca deve ver os dados de teste durante qualquer parte do processo de treino ou de afinação de hiperparâmetros.
  • Representatividade: Deve refletir com precisão as caraterísticas e a distribuição dos dados do mundo real que o modelo irá encontrar na produção. Isto inclui tipos semelhantes de entradas, variações e potenciais casos extremos. As melhores práticas de recolha e anotação de dados são vitais aqui.
  • Tamanho suficiente: Embora muitas vezes mais pequeno do que o conjunto de treino, o conjunto de teste tem de ser suficientemente grande para fornecer resultados de avaliação estatisticamente significativos. Um tamanho insuficiente pode levar a estimativas de desempenho pouco fiáveis, conforme salientado nas Regras de ML daGoogle.

Dados de teste vs. dados de treino e validação

É essencial distinguir os dados de teste de outras divisões de dados utilizadas no ML:

  • Dados de treino: Esta é a maior parte do conjunto de dados, utilizada diretamente para treinar o modelo, ajustando os seus parâmetros internos ou pesos.
  • Dados de validação: Este subconjunto separado é utilizado durante o processo de formação para ajustar os hiperparâmetros do modelo (como a taxa de aprendizagem ou as escolhas da arquitetura da rede) e tomar decisões sobre o próprio processo de formação (por exemplo, paragem antecipada). Embora não seja visto durante as actualizações de parâmetros, influencia indiretamente o modelo final através da seleção de hiperparâmetros. Para mais informações, consulta o nosso guia sobre Avaliação e afinação de modelos.
  • Dados de teste: Este conjunto de dados é utilizado apenas uma vez depois de o modelo estar totalmente treinado e afinado, fornecendo a avaliação final e imparcial do desempenho. Não deve influenciar nenhuma decisão de treinamento ou ajuste. Os conjuntos de dados de referência padrão, como o COCO, geralmente vêm com divisões de teste predefinidas para avaliação padronizada.

Exemplos do mundo real

  1. Condução autónoma: Uma Ultralytics YOLO O modelo treinado para a deteção de objectos (deteção de carros, peões, semáforos) seria avaliado utilizando um conjunto de teste de imagens de estrada gravadas em condições (clima, hora do dia, locais) não incluídas nos conjuntos de treino ou validação. Isto garante a fiabilidade do modelo em diversos cenários de condução no mundo real, crucial para a IA em automóveis autónomos.
  2. Diagnóstico médico: Um modelo desenvolvido para a análise de imagens médicas, como a deteção de tumores em raios X utilizando conjuntos de dados como o Brain Tumor Detection Dataset, seria testado num conjunto completamente novo de imagens de pacientes de hospitais ou scanners diferentes dos utilizados para treino e validação. Isto confirma a sua precisão de diagnóstico antes de uma potencial utilização clínica, tal como referido no papel da IA na investigação clínica.

Avaliação de desempenho em dados de teste

O desempenho no conjunto de teste é normalmente medido utilizando métricas relevantes para a tarefa, como a exatidão, a precisão, a recuperação, a pontuação F1 ou a precisão média (mAP) para a deteção de objectos. Estas métricas, calculadas sobre os dados de teste não vistos, fornecem a estimativa mais realista do desempenho do modelo na produção. Podes saber mais sobre estas métricas no nosso guiaYOLO Performance Metrics. Plataformas como o Ultralytics HUB facilitam o acompanhamento dessas métricas durante a fase de avaliação. As práticas recomendadas de teste de modelos enfatizam a importância dessa etapa de avaliação final.

Lê tudo