Descobre a importância dos dados de formação na IA. Aprende como os conjuntos de dados de qualidade potenciam modelos de aprendizagem automática precisos e robustos para tarefas do mundo real.
Nos domínios da Inteligência Artificial (IA) e da Aprendizagem Automática (AM), os dados de treino são o conjunto de dados fundamental utilizado para ensinar os modelos a executar tarefas específicas, como a classificação ou a previsão. Compreende uma grande coleção de exemplos, em que cada exemplo emparelha tipicamente uma entrada com uma saída ou etiqueta desejada correspondente. Através de processos como a Aprendizagem Supervisionada, o modelo analisa estes dados, identifica padrões e relações subjacentes e ajusta os seus parâmetros internos(pesos do modelo) para aprender o mapeamento das entradas para as saídas. Esta aprendizagem permite que o modelo faça previsões ou tome decisões exactas quando lhe são apresentados dados novos e nunca antes vistos.
Pensa nos dados de treino como o manual e os exercícios práticos para um modelo de IA. Trata-se de um conjunto de informações cuidadosamente selecionadas e formatadas especificamente para servirem de exemplos durante a fase de aprendizagem. Por exemplo, em tarefas de Visão por Computador (CV) como a Deteção de Objectos, os dados de treino consistem em imagens ou fotogramas de vídeo (as caraterísticas de entrada) emparelhados com anotações (etiquetas) que especificam a localização(caixas delimitadoras) e a classe dos objectos nessas imagens. A criação destas etiquetas é um passo crucial conhecido como Rotulagem de Dados. O modelo processa iterativamente esses dados, comparando suas previsões com os rótulos verdadeiros e ajustando seus parâmetros usando técnicas como backpropagation e gradient descent para minimizar o erro ou a função de perda.
O desempenho e a fiabilidade de um modelo de IA estão diretamente ligados à qualidade, quantidade e diversidade dos seus dados de treino. Dados representativos e de alta qualidade são essenciais para a construção de modelos que atinjam uma elevada precisão e generalizem bem para cenários do mundo real(Generalização em ML). Por outro lado, dados de treinamento insuficientes, ruidosos ou tendenciosos podem levar a problemas significativos, como baixo desempenho, sobreajuste (em que o modelo tem bom desempenho nos dados de treinamento, mas tem baixo desempenho nos novos dados) ou resultados injustos e discriminatórios devido ao viés inerente do conjunto de dados. Abordar o enviesamento é um aspeto fundamental da ética da IA. Por conseguinte, a recolha, a anotação e a preparação meticulosas dos dados são fases essenciais para o desenvolvimento de sistemas de IA bem sucedidos.
Os dados de treino são o combustível para inúmeras aplicações de IA em vários domínios. Eis dois exemplos:
Garantir a alta qualidade dos dados de treinamento é fundamental e envolve várias etapas importantes. A limpeza de dados (Wikipedia) trata de erros, inconsistências e valores em falta. O pré-processamento de dados transforma os dados brutos num formato adequado para o modelo. Técnicas como o aumento de dados expandem artificialmente o conjunto de dados criando cópias modificadas dos dados existentes (por exemplo, rodando ou cortando imagens), o que ajuda a melhorar a robustez do modelo e a reduzir o sobreajuste. Compreender os teus dados através da exploração, tal como facilitado por ferramentas como o Ultralytics Datasets Explorer, é também crucial antes de iniciar o processo de formação.
Num projeto típico de ML, os dados são divididos em três conjuntos distintos:
Manter uma separação rigorosa entre estes conjuntos de dados é essencial para desenvolver modelos fiáveis e avaliar com precisão as suas capacidades. Plataformas como o Ultralytics HUB oferecem ferramentas para gerir eficazmente estes conjuntos de dados ao longo do ciclo de vida de desenvolvimento do modelo. Modelos de última geração como o Ultralytics YOLO são frequentemente pré-treinados em grandes conjuntos de dados de referência, como COCO ou ImageNet, que servem como dados de treinamento extensivos.