Verificação verde
Link copiado para a área de transferência

Explora os melhores conjuntos de dados de visão computacional em 2025

Junta-te a nós para analisarmos mais de perto os melhores conjuntos de dados de visão computacional de 2025. Aprende como conjuntos de dados diversos e de alta qualidade impulsionam soluções de IA de visão mais inteligentes.

Sabias que os dados desempenham um papel em quase tudo o que fazes diariamente? Ver um vídeo, tirar uma fotografia ou consultar Google Maps contribui para o fluxo constante de informações captadas por mais de 75 mil milhões de dispositivos ligados. Estes dados constituem a base da inteligência artificial (IA). De facto, modelos avançados de visão computacional como o Ultralytics YOLO11 dependem de dados visuais para identificar padrões, interpretar imagens e dar sentido ao mundo que nos rodeia.

Curiosamente, o valor dos dados não se resume à quantidade. É mais importante saber se estão bem organizados e preparados. Se um conjunto de dados estiver desorganizado ou incompleto, pode levar a erros. No entanto, quando os conjuntos de dados são limpos e diversificados, ajudam os modelos de visão por computador a ter um melhor desempenho, quer se trate de reconhecer objectos numa multidão ou de analisar imagens complexas. Conjuntos de dados de alta qualidade fazem toda a diferença.

Neste artigo, vamos explorar os melhores conjuntos de dados de visão computacional de 2025 e ver como eles contribuem para a construção de modelos de visão computacional mais precisos e eficientes. Vamos começar!

O que são conjuntos de dados de visão computacional?

Um conjunto de dados de visão computacional é uma coleção de imagens ou vídeos que ajudam os sistemas de visão computacional a aprender a compreender e a reconhecer informações visuais. Estes conjuntos de dados vêm com etiquetas ou anotações que ajudam os modelos a reconhecer objectos, pessoas, cenas e padrões nos dados.

Podem ser utilizados para treinar modelos de visão por computador, ajudando-os a melhorar tarefas como a identificação de rostos, a deteção de objectos ou a análise de cenas. Quanto melhor for o conjunto de dados - bem organizado, diversificado e preciso - melhor será o desempenho do modelo de IA de visão, conduzindo a uma tecnologia mais inteligente e mais útil na vida quotidiana.

Como criar um conjunto de dados de visão computacional

Construir um conjunto de dados de visão por computador é como preparar notas de estudo para ensinar alguém a ver e a compreender o mundo. Tudo começa com a recolha de imagens e vídeos que correspondem à aplicação específica que estás a desenvolver. 

Um conjunto de dados ideal inclui diversos exemplos dos objectos de interesse, capturados de diferentes ângulos, sob várias condições de iluminação e em vários fundos e ambientes. Esta variedade garante que o modelo de visão por computador aprende a reconhecer padrões com precisão e tem um desempenho fiável em cenários do mundo real.

Figura 1. Constrói o conjunto de dados de visão perfeito. Imagem do autor.

Depois de reunires imagens e vídeos relevantes, o passo seguinte é a etiquetagem dos dados. Este processo envolve a adição de etiquetas, anotações ou descrições aos dados para que a IA possa compreender o conteúdo de cada imagem ou vídeo. 

As etiquetas podem incluir nomes de objectos, localizações, limites ou outros detalhes relevantes que ajudam a treinar o modelo para reconhecer e interpretar a informação visual com precisão. A etiquetagem de dados transforma uma simples coleção de imagens num conjunto de dados estruturado que pode ser utilizado para treinar um modelo de visão por computador.

O treino do modelo requer dados de alta qualidade

Deves estar a perguntar-te o que torna um conjunto de dados de alta qualidade. Há muitos factores envolvidos, como a etiquetagem precisa, a diversidade e a consistência. Por exemplo, se vários anotadores estiverem a etiquetar um conjunto de dados de deteção de objectos para identificar orelhas de gato, um pode etiquetá-las como parte da cabeça enquanto outro as etiqueta separadamente como orelhas. Esta inconsistência pode confundir o modelo e afetar a sua capacidade de aprender corretamente.

Segue-se uma breve descrição das qualidades de um conjunto de dados de visão computacional ideal:

  • Etiquetas claras: Cada imagem é anotada com precisão com etiquetas consistentes e precisas.
  • Dados diversificados: O conjunto de dados inclui diferentes objectos, fundos, condições de iluminação e ângulos para ajudar o modelo a funcionar bem em várias situações.
  • Imagens de alta resolução: Imagens nítidas e detalhadas facilitam a aprendizagem e o reconhecimento de caraterísticas pelo modelo.

Ultralytics suporta vários conjuntos de dados

Os modelosYOLO Ultralytics , como o YOLO11, foram criados para trabalhar com conjuntos de dados num formato de ficheiro YOLO específico. Embora seja fácil converter os teus próprios dados para este formato, também fornecemos uma opção sem complicações para aqueles que querem começar a experimentar de imediato. 

O pacoteUltralytics Python suporta uma vasta gama de conjuntos de dados de visão computacional, permitindo-te mergulhar em projectos que utilizam tarefas como a deteção de objectos, a segmentação de instâncias ou a estimativa de pose sem qualquer configuração adicional.  

Os utilizadores podem aceder facilmente a conjuntos de dados prontos a utilizar, como COCO, DOTA-v2.0, Open Images V7 e ImageNet, especificando o nome do conjunto de dados como um dos parâmetros na função de formação. Quando o fizeres, o conjunto de dados é automaticamente transferido e pré-configurado, para que te possas concentrar na criação e aperfeiçoamento dos teus modelos.

Os 5 principais conjuntos de dados de visão computacional em 2025

Os avanços na IA de visão dependem de conjuntos de dados diversos e em grande escala que impulsionam a inovação e permitem avanços. Vejamos alguns dos conjuntos de dados mais importantes, apoiados pela Ultralytics, que estão a influenciar os modelos de visão computacional.

Conjunto de dados ImageNet 

O ImageNet, criado por Fei-Fei Li e a sua equipa na Universidade de Princeton em 2007 e apresentado em 2009, é um grande conjunto de dados com mais de 14 milhões de imagens marcadas. É amplamente utilizado para treinar sistemas para reconhecer e categorizar diferentes objectos. O seu design estruturado torna-o particularmente útil para ensinar modelos a classificar imagens com precisão. Embora bem documentado, centra-se principalmente na classificação de imagens e carece de anotações detalhadas para tarefas como a deteção de objectos. 

Vê aqui alguns dos principais pontos fortes do ImageNet:

  • Diversidade: Com imagens que abrangem mais de 20.000 categorias, o ImageNet oferece um conjunto de dados vasto e variado que melhora o treinamento e a generalização do modelo.
  • Organização estruturada: As imagens são meticulosamente categorizadas utilizando a hierarquia WordNet, facilitando a recuperação eficiente de dados e a formação sistemática de modelos. 
  • Documentação abrangente: A investigação extensiva e os anos de estudo tornam o ImageNet acessível tanto a principiantes como a especialistas, fornecendo informações e orientações valiosas para projectos de visão computacional.

No entanto, como qualquer conjunto de dados, tem as suas limitações. Eis alguns dos desafios a considerar:

  • Exigências informáticas: A sua enorme dimensão pode colocar desafios às equipas mais pequenas com recursos informáticos limitados.
  • Falta de dados temporais: Uma vez que contém apenas imagens estáticas, pode não satisfazer as necessidades das aplicações que requerem vídeo ou dados temporais.
  • Imagens desactualizadas: Algumas imagens do conjunto de dados são mais antigas e podem não refletir objectos, estilos ou ambientes actuais, reduzindo potencialmente a relevância para aplicações modernas.

Conjunto de dados DOTA-v2.0

O conjunto de dados DOTA-v2.0, em que DOTA significa Dataset for Object Detection in Aerial Images (Conjunto de dados para deteção de objectos em imagens aéreas), é uma extensa coleção de imagens aéreas criada especialmente para a deteção de objectos OBB (oriented bounding box). Na deteção de OBB, são utilizadas caixas delimitadoras rodadas para alinhar com mais precisão a orientação real dos objectos na imagem. Este método funciona especialmente bem para imagens aéreas, onde os objectos aparecem frequentemente em vários ângulos, o que leva a uma localização mais precisa e a uma melhor deteção global.

Este conjunto de dados é composto por mais de 11.000 imagens e mais de 1,7 milhões de caixas delimitadoras orientadas em 18 categorias de objectos. As imagens variam entre 800×800 e 20.000×20.000 pixels e incluem objectos como aviões, navios e edifícios. 

Fig. 2. Exemplos de imagens e anotações do conjunto de dados DOTA-v2.0. Imagem do autor.

Devido às suas anotações detalhadas, o DOTA-v2.0 tornou-se uma escolha popular para projectos de deteção remota e vigilância aérea. Aqui estão algumas das principais caraterísticas do DOTA-v2.0:

  • Diversas categorias de objectos: Abrange muitos tipos de objectos diferentes, como veículos, portos e tanques de armazenamento, dando aos modelos exposição a vários objectos do mundo real.
  • Anotações de alta qualidade: Os anotadores especializados forneceram caixas delimitadoras orientadas com precisão que mostram claramente as formas e direcções dos objectos.
  • Imagens multiescala: O conjunto de dados inclui imagens de diferentes tamanhos, ajudando os modelos a aprender a detetar objectos tanto em pequena como em grande escala.

Embora o DOTA-v2 tenha muitos pontos fortes, aqui estão algumas limitações que os utilizadores devem ter em mente:

  • Etapas extras de download: Devido à forma como o conjunto de dados DOTA é mantido, o DOTA-v2.0 requer um passo de configuração adicional. Primeiro, tens de descarregar as imagens DOTA-v1.0 e depois adicionar as imagens extra e as anotações actualizadas para DOTA-v2.0 para completar o conjunto de dados.
  • Anotações complexas: As caixas delimitadoras orientadas podem exigir um esforço adicional para serem tratadas durante a formação do modelo.
  • Âmbito limitado: O DOTA-v2 foi concebido para imagens aéreas, o que o torna menos útil para tarefas gerais de deteção de objectos fora deste domínio.

Conjunto de dados Roboflow 100 

O conjunto de dados Roboflow 100 (RF100) foi criado pela Roboflow com o apoio da Intel. Pode ser utilizado para testar e avaliar a eficácia dos modelos de deteção de objectos. Este conjunto de dados de referência inclui 100 conjuntos de dados diferentes escolhidos de entre mais de 90.000 conjuntos de dados públicos. Tem mais de 224.000 imagens e 800 classes de objectos de áreas como os cuidados de saúde, vistas aéreas e jogos. 

Eis algumas das principais vantagens da utilização do RF100:

  • Ampla cobertura de domínios: Inclui conjuntos de dados de sete domínios, tais como imagens médicas, vistas aéreas e exploração subaquática. 
  • Incentiva a melhoria do modelo: A variabilidade e os desafios específicos do domínio no RF100 revelam lacunas nos modelos actuais, impulsionando a investigação para soluções de deteção de objectos mais adaptáveis e robustas.
  • Formato de imagem consistente: Todas as imagens são redimensionadas para 640x640 pixéis. Isto ajuda os utilizadores a treinar modelos sem terem de ajustar os tamanhos das imagens.

Apesar dos seus pontos fortes, o RF100 também tem alguns inconvenientes a ter em conta:

  • Limitado em termos de tarefas: O RF100 foi concebido para a deteção de objectos, pelo que não pode acomodar tarefas como a segmentação ou a classificação.
  • Foco centrado no benchmark: O RF100 foi concebido principalmente como uma ferramenta de avaliação comparativa e não para treinar modelos para aplicações do mundo real, pelo que os seus resultados podem não se traduzir totalmente em cenários de implementação prática.
  • Variabilidade das anotações: Uma vez que o RF100 agrega conjuntos de dados de origem colectiva, pode haver inconsistências na qualidade das anotações e nas práticas de rotulagem, o que pode afetar a avaliação e o aperfeiçoamento do modelo.

Conjunto de dados COCO (Objectos comuns em contexto)

O conjunto de dados COCO é um dos conjuntos de dados de visão computacional mais utilizados, oferecendo mais de 330.000 imagens com anotações de imagem detalhadas. Foi concebido para deteção de objectos, segmentação e legendagem de imagens, o que o torna um recurso valioso para muitos projectos. As suas etiquetas detalhadas, incluindo caixas delimitadoras e máscaras de segmentação, ajudam os sistemas a aprender a analisar imagens com precisão.

Este conjunto de dados é conhecido pela sua flexibilidade e é útil para várias tarefas, desde projectos simples a complexos. Tornou-se um padrão no campo da IA de visão, frequentemente utilizado em desafios e competições para avaliar o desempenho do modelo.

Alguns dos seus pontos fortes incluem:

  • Dados diversificados e realistas: O conjunto de dados inclui imagens de cenários do mundo real com vários objectos, oclusões e condições de iluminação variadas.
  • Forte adoção pela comunidade e pela investigação: Utilizado nas principais competições de aprendizagem automática e investigação, o conjunto de dados COCO tem uma documentação extensa, modelos pré-treinados e apoio ativo da comunidade.
  • Anotações ricas e detalhadas: O conjunto de dados COCO fornece anotações altamente detalhadas, incluindo segmentação de objectos, pontos-chave e legendas, tornando-o ideal para projectos que requerem uma compreensão visual precisa.

Aqui estão alguns factores limitadores que também deves ter em conta:

  • Requisitos computacionais elevados: Devido ao seu tamanho e complexidade, os modelos de treino no COCO podem exigir recursos computacionais significativos, o que constitui um desafio para as equipas com hardware limitado.
  • Desequilíbrio de dados: Algumas categorias de objectos têm significativamente mais imagens do que outras, o que pode levar a uma distorção na formação do modelo.
  • Estrutura de anotações complexa: As anotações pormenorizadas do conjunto de dados, embora valiosas, podem ser esmagadoras para os principiantes ou para as equipas mais pequenas que não têm experiência em trabalhar com conjuntos de dados estruturados de IA de visão.

Conjunto de dados Open Images V7

O Open Images V7 é um enorme conjunto de dados de código aberto com curadoria da Google, que inclui mais de 9 milhões de imagens com anotações para 600 categorias de objectos. Inclui uma variedade de tipos de anotações e é ideal para lidar com tarefas complexas de visão computacional. A sua escala e profundidade fornecem um recurso abrangente para treinar e testar modelos de visão computacional.

Figura 3. Vê o conjunto de dados Open Images V7. Imagem do autor.

Além disso, a popularidade do conjunto de dados Open Images V7 na investigação fornece muitos recursos e exemplos para os utilizadores aprenderem. No entanto, o seu enorme tamanho pode tornar o descarregamento e o processamento demorados, especialmente para equipas mais pequenas. Outro problema é que algumas anotações podem ser inconsistentes, exigindo um esforço extra para limpar os dados, e a integração nem sempre é perfeita, o que significa que pode ser necessária uma preparação adicional. 

Escolher o conjunto de dados correto 

Escolher o conjunto de dados certo é uma parte importante da preparação do teu projeto de visão por computador para o sucesso. A melhor escolha depende da tua tarefa específica - encontrar uma boa correspondência ajuda o teu modelo a aprender as competências certas. Deve também integrar-se facilmente com as tuas ferramentas, para que te possas concentrar mais na construção do teu modelo e menos na resolução de problemas.

Figura 4. Factores para a escolha do conjunto de dados adequado. Imagem do autor.

Principais conclusões

Conjuntos de dados de alta qualidade são a espinha dorsal de qualquer modelo de visão computacional, ajudando os sistemas a aprender a interpretar imagens com precisão. Conjuntos de dados diversificados e bem anotados são especialmente importantes, pois permitem que os modelos tenham um desempenho fiável em cenários do mundo real e reduzem os erros causados por dados limitados ou de má qualidade.

Ultralytics simplifica o processo de acesso e trabalho com conjuntos de dados de visão computacional, facilitando a procura dos dados certos para o teu projeto. Escolher o conjunto de dados certo é um passo crucial na construção de um modelo de alto desempenho, levando a resultados mais precisos e impactantes.

Junta-te à nossa comunidade e explora o nosso repositório GitHub para saberes mais sobre IA. Descobre avanços como a visão computacional para os cuidados de saúde e a IA em carros autónomos nas nossas páginas de soluções. Vê as nossas opções de licenciamento e dá o primeiro passo para começares a trabalhar com visão computacional hoje mesmo!

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática