Glossário

Dados de treino

Descobre a importância dos dados de formação na IA. Aprende como os conjuntos de dados de qualidade potenciam modelos de aprendizagem automática precisos e robustos para tarefas do mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Nos domínios da Inteligência Artificial (IA) e da Aprendizagem Automática (AM), os dados de treino são o conjunto de dados fundamental utilizado para ensinar os modelos a executar tarefas específicas, como a classificação ou a previsão. Compreende uma grande coleção de exemplos, em que cada exemplo emparelha tipicamente uma entrada com uma saída ou etiqueta desejada correspondente. Através de processos como a Aprendizagem Supervisionada, o modelo analisa estes dados, identifica padrões e relações subjacentes e ajusta os seus parâmetros internos(pesos do modelo) para aprender o mapeamento das entradas para as saídas. Esta aprendizagem permite que o modelo faça previsões ou tome decisões exactas quando lhe são apresentados dados novos e nunca antes vistos.

O que são dados de treino?

Pensa nos dados de treino como o manual e os exercícios práticos para um modelo de IA. Trata-se de um conjunto de informações cuidadosamente selecionadas e formatadas especificamente para servirem de exemplos durante a fase de aprendizagem. Por exemplo, em tarefas de Visão por Computador (CV) como a Deteção de Objectos, os dados de treino consistem em imagens ou fotogramas de vídeo (as caraterísticas de entrada) emparelhados com anotações (etiquetas) que especificam a localização(caixas delimitadoras) e a classe dos objectos nessas imagens. A criação destas etiquetas é um passo crucial conhecido como Rotulagem de Dados. O modelo processa iterativamente esses dados, comparando suas previsões com os rótulos verdadeiros e ajustando seus parâmetros usando técnicas como backpropagation e gradient descent para minimizar o erro ou a função de perda.

Importância dos dados de formação

O desempenho e a fiabilidade de um modelo de IA estão diretamente ligados à qualidade, quantidade e diversidade dos seus dados de treino. Dados representativos e de alta qualidade são essenciais para a construção de modelos que atinjam uma elevada precisão e generalizem bem para cenários do mundo real(Generalização em ML). Por outro lado, dados de treinamento insuficientes, ruidosos ou tendenciosos podem levar a problemas significativos, como baixo desempenho, sobreajuste (em que o modelo tem bom desempenho nos dados de treinamento, mas tem baixo desempenho nos novos dados) ou resultados injustos e discriminatórios devido ao viés inerente do conjunto de dados. Abordar o enviesamento é um aspeto fundamental da ética da IA. Por conseguinte, a recolha, a anotação e a preparação meticulosas dos dados são fases essenciais para o desenvolvimento de sistemas de IA bem sucedidos.

Exemplos de dados de treino em aplicações do mundo real

Os dados de treino são o combustível para inúmeras aplicações de IA em vários domínios. Eis dois exemplos:

  1. Veículos autónomos: Os veículos autónomos dependem fortemente de dados de treino para os sistemas de perceção. Estes dados incluem grandes quantidades de imagens de câmaras, LiDAR e sensores de radar, meticulosamente identificadas com objectos como outros veículos, peões, ciclistas, semáforos e marcas de faixa de rodagem. Modelos como os utilizados na tecnologia da Waymo são treinados em conjuntos de dados como o Argoverse para aprender a navegar em ambientes complexos com segurança. Explora a IA em soluções automóveis para obteres mais detalhes.
  2. Análise de sentimentos: No processamento de linguagem natural (PNL), os modelos de análise de sentimentos determinam o tom emocional por trás do texto. Os dados de treino consistem em amostras de texto (por exemplo, críticas de clientes, publicações nas redes sociais) rotuladas com sentimentos como "positivo", "negativo" ou "neutro"(Análise de sentimentos - Wikipédia). Isto permite às empresas avaliar automaticamente a opinião pública ou a satisfação dos clientes.

Qualidade e preparação dos dados

Garantir a alta qualidade dos dados de treinamento é fundamental e envolve várias etapas importantes. A limpeza de dados (Wikipedia) trata de erros, inconsistências e valores em falta. O pré-processamento de dados transforma os dados brutos num formato adequado para o modelo. Técnicas como o aumento de dados expandem artificialmente o conjunto de dados criando cópias modificadas dos dados existentes (por exemplo, rodando ou cortando imagens), o que ajuda a melhorar a robustez do modelo e a reduzir o sobreajuste. Compreender os teus dados através da exploração, tal como facilitado por ferramentas como o Ultralytics Datasets Explorer, é também crucial antes de iniciar o processo de formação.

Dados de treino vs. dados de validação e teste

Num projeto típico de ML, os dados são divididos em três conjuntos distintos:

Manter uma separação rigorosa entre estes conjuntos de dados é essencial para desenvolver modelos fiáveis e avaliar com precisão as suas capacidades. Plataformas como o Ultralytics HUB oferecem ferramentas para gerir eficazmente estes conjuntos de dados ao longo do ciclo de vida de desenvolvimento do modelo. Modelos de última geração como o Ultralytics YOLO são frequentemente pré-treinados em grandes conjuntos de dados de referência, como COCO ou ImageNet, que servem como dados de treinamento extensivos.

Lê tudo