Glossário

Dados de treino

Descobre a importância dos dados de formação na aprendizagem automática, os seus principais factores e como Ultralytics YOLO os utiliza para modelos de IA de ponta.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os dados de treino são a pedra angular da aprendizagem automática supervisionada, fornecendo a base sobre a qual os modelos aprendem a fazer previsões exactas. Consiste num conjunto de exemplos de entrada, em que cada exemplo é emparelhado com o resultado desejado correspondente, conhecido como "verdade básica" ou "etiqueta". Ao analisar estes dados rotulados, os algoritmos de aprendizagem automática identificam padrões e relações que lhes permitem generalizar e fazer previsões sobre dados novos e não vistos. A qualidade, a dimensão e a representatividade dos dados de treino têm um impacto significativo no desempenho e na fiabilidade do modelo treinado.

Importância dos dados de formação

Os dados de formação de elevada qualidade são essenciais para a criação de modelos de aprendizagem automática robustos e precisos. Os dados devem ser representativos dos cenários do mundo real que o modelo irá encontrar, abrangendo uma vasta gama de variações e casos extremos. Um conjunto de dados diversificado e abrangente ajuda o modelo a aprender os padrões e relações subjacentes nos dados, levando a uma melhor generalização e desempenho em dados não vistos. Dados de treino insuficientes ou enviesados podem resultar em modelos com fraco desempenho em aplicações do mundo real ou que apresentem um comportamento injusto ou discriminatório.

Considerações fundamentais sobre os dados de formação

Vários factores contribuem para a eficácia dos dados de formação:

  • Qualidade dos dados: Dados exactos, consistentes e bem rotulados são cruciais. Erros ou inconsistências nos dados podem fazer com que um modelo aprenda padrões incorrectos.
  • Quantidade de dados: Geralmente, mais dados levam a um melhor desempenho do modelo, pois permite que o modelo aprenda padrões mais complexos. No entanto, a qualidade dos dados não deve ser sacrificada pela quantidade.
  • Relevância dos dados: Os dados de treino devem ser relevantes para a tarefa específica para a qual o modelo está a ser treinado. A inclusão de dados irrelevantes pode introduzir ruído e prejudicar a capacidade do modelo de aprender os padrões desejados.
  • Diversidade de dados: Um conjunto de dados diversificado que cubra uma vasta gama de cenários, variações e casos extremos ajuda o modelo a generalizar melhor para dados novos e não vistos.
  • Equilíbrio dos dados: Em tarefas de classificação, é importante ter uma representação equilibrada de cada classe nos dados de treino. Dados desequilibrados podem levar a modelos tendenciosos que têm um desempenho fraco em classes sub-representadas. Sabe mais sobre como lidar com o desequilíbrio de dados no blogueUltralytics .

Dados de treino vs. termos relacionados

É importante distinguir os dados de treino de outros tipos de dados utilizados na aprendizagem automática:

  • Dados de validação: Os dados de validação são utilizados para afinar os hiperparâmetros do modelo e avaliar o seu desempenho durante o treino. Ajuda a evitar o sobreajuste, fornecendo uma estimativa imparcial do desempenho do modelo em dados não vistos.
  • Dados de teste: Os dados de teste são utilizados para avaliar o desempenho final do modelo treinado. É completamente independente dos dados de treino e validação e fornece uma estimativa imparcial do desempenho do modelo em dados novos e não vistos.

Aplicações do mundo real dos dados de formação

Os dados de formação são utilizados numa vasta gama de aplicações do mundo real em vários sectores. Eis dois exemplos concretos:

Veículos autónomos

Os automóveis autónomos dependem fortemente de dados de treino para aprenderem a navegar e a tomar decisões em ambientes complexos do mundo real. Os dados de treino para estes sistemas incluem normalmente imagens e dados de sensores de câmaras, lidar e radar, juntamente com etiquetas correspondentes que indicam a presença e a localização de objectos como peões, veículos e sinais de trânsito. Ao treinar com grandes quantidades de dados diversos e representativos, os modelos de condução autónoma podem aprender a perceber com precisão o que os rodeia e a tomar decisões de condução seguras. Explora o papel da IA de visão nos automóveis de condução autónoma para saberes mais.

Diagnóstico médico

Os dados de treino desempenham um papel crucial no desenvolvimento de modelos de IA para diagnóstico médico. Por exemplo, no domínio da imagiologia médica, os modelos podem ser treinados para detetar doenças como o cancro a partir de raios X, tomografias computorizadas ou imagens de ressonância magnética. Os dados de treino para estes modelos consistem em imagens médicas identificadas por radiologistas especializados, indicando a presença e a localização de tumores ou outras anomalias. Ao aprender com grandes conjuntos de dados de imagens médicas identificadas, os modelos de IA podem ajudar os médicos a efetuar diagnósticos mais rápidos e mais precisos. Sabe mais sobre as aplicações da IA nos cuidados de saúde.

Dados de treino em Ultralytics YOLO

Ultralytics YOLO (You Only Look Once) são modelos de deteção de objectos de última geração que se baseiam em dados de treino de alta qualidade para alcançar um desempenho excecional. Estes modelos são treinados em grandes conjuntos de dados de imagens com anotações de caixa delimitadora correspondentes, indicando a localização e a classe dos objectos em cada imagem. Explora a variedade de modelos suportados por Ultralytics, incluindo YOLOv3 a YOLOv10, NAS, SAM e RT-DETR para deteção, segmentação e muito mais.

Ultralytics fornece uma plataforma de fácil utilização, Ultralytics HUB, para gerir conjuntos de dados e treinar modelos personalizados. Os utilizadores podem carregar os seus próprios conjuntos de dados ou escolher entre uma variedade de conjuntos de dados pré-existentes, como o COCO, para treinar os seus modelos. Sabe mais sobre como treinar conjuntos de dados personalizados com Ultralytics YOLO em Google Colab. A plataforma também oferece ferramentas para visualização de dados, avaliação de modelos e implantação, facilitando a criação e a implantação de modelos de deteção de objetos de alto desempenho.

A documentação Ultralytics fornece recursos extensivos sobre formatos de conjuntos de dados, formação de modelos e métricas de desempenho, permitindo aos utilizadores aproveitar eficazmente os dados de formação para as suas aplicações específicas.

Lê tudo