Glossário

Dados de treino

Descobre a importância dos dados de formação na IA. Aprende como os conjuntos de dados de qualidade potenciam modelos de aprendizagem automática precisos e robustos para tarefas do mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Nos domínios da Inteligência Artificial (IA) e da Aprendizagem Automática, os dados de treino são o ingrediente essencial utilizado para ensinar os modelos a executar tarefas. Consiste num conjunto de dados com vários exemplos, em que cada exemplo associa uma entrada à saída ou etiqueta pretendida. Ao processar estes dados, normalmente através de algoritmos de Aprendizagem Supervisionada, o modelo aprende a identificar padrões, relações e caraterísticas, permitindo-lhe fazer previsões ou tomar decisões sobre dados novos e não vistos.

O que são dados de treino?

Os dados de treino funcionam como material didático para um modelo de IA. Trata-se de uma coleção de informação especificamente formatada para servir de exemplo ao processo de aprendizagem. Por exemplo, em tarefas de visão por computador, como a deteção de objectos, os dados de treino incluem imagens ou fotogramas de vídeo(caraterísticas de entrada), juntamente com anotações que indicam a localização e a classe dos objectos (etiquetas). O processo de criação desses rótulos é conhecido como rotulagem de dados. O modelo ajusta iterativamente seus parâmetros internos com base nesses dados para minimizar a diferença entre suas previsões e os rótulos fornecidos.

Importância dos dados de formação

A qualidade, quantidade e diversidade dos dados de treino determinam diretamente o desempenho de um modelo e a sua capacidade de generalização para cenários do mundo real(Generalização em ML). Dados representativos e de elevada qualidade ajudam a criar modelos robustos e a atingir uma elevada precisão. Dados insuficientes ou tendenciosos podem levar a um mau desempenho, sobreajuste (quando o modelo aprende muito bem os dados de treinamento, mas falha em novos dados) ou resultados injustos devido ao viés do conjunto de dados. Por conseguinte, a recolha e a preparação cuidadosas dos dados de treino são passos fundamentais em qualquer projeto de IA.

Exemplos de dados de treino em aplicações do mundo real

Os dados de treino alimentam inúmeras aplicações de IA. Eis dois exemplos:

  1. Veículos autónomos: Modelos como Ultralytics YOLO utilizados na IA em veículos autónomos são treinados em vastos conjuntos de dados que contêm imagens e dados de sensores de várias condições de condução. Estes dados são meticulosamente rotulados com caixas delimitadoras ou máscaras de segmentação para objectos como veículos, peões, ciclistas e sinais de trânsito, utilizando frequentemente grandes conjuntos de dados públicos como o COCO Dataset.
  2. Processamento de linguagem natural: Para tarefas como a Análise de Sentimentos (Wikipédia), os dados de treino consistem em amostras de texto (por exemplo, análises de produtos, publicações nas redes sociais) rotuladas com sentimentos como "positivo", "negativo" ou "neutro". O modelo aprende a associar padrões de linguagem a esses rótulos de sentimento.

Qualidade e preparação dos dados

Garantir dados de formação de alta qualidade envolve vários processos-chave:

  • Recolha de dados: Recolha de dados relevantes que reflictam com precisão o domínio do problema.
  • Limpeza de dados (Wikipedia): Identificação e correção de erros, inconsistências ou valores em falta no conjunto de dados.
  • Rotulagem de dados: Anotar com precisão os dados com os resultados ou alvos corretos.
  • Aumento de dados: Expande artificialmente o conjunto de dados criando cópias modificadas dos dados existentes (por exemplo, rodando imagens, alterando o brilho) para melhorar a robustez do modelo.

Dados de treino vs. dados de validação e teste

Embora sejam frequentemente discutidos em conjunto, estes conjuntos de dados têm objectivos distintos:

  • Dados de treinamento: Usa para treinar o modelo, ajustando os seus parâmetros (pesos).
  • Dados de validação: Utilizados periodicamente durante o treino para avaliar o desempenho do modelo em dados não vistos e para afinar os hiperparâmetros(Hyperparameter Optimization (Wikipedia)) sem introduzir preconceitos do conjunto de teste.
  • Dados de teste: Utilizados apenas após a conclusão do treinamento do modelo para fornecer uma avaliação final e imparcial do desempenho do modelo em dados completamente novos.

Separar corretamente estes conjuntos de dados é crucial para desenvolver modelos fiáveis e avaliar com precisão as suas capacidades no mundo real. Plataformas como o Ultralytics HUB ajudam a gerir eficazmente estes conjuntos de dados durante o ciclo de vida de desenvolvimento do modelo.

Lê tudo