Junta-te a nós para analisarmos mais de perto os melhores conjuntos de dados de visão computacional de 2025. Aprende como conjuntos de dados diversos e de alta qualidade impulsionam soluções de IA de visão mais inteligentes.
Sabias que os dados desempenham um papel em quase tudo o que fazes diariamente? Ver um vídeo, tirar uma fotografia ou consultar Google Maps contribui para o fluxo constante de informações captadas por mais de 75 mil milhões de dispositivos ligados. Estes dados constituem a base da inteligência artificial (IA). De facto, modelos avançados de visão computacional como o Ultralytics YOLO11 dependem de dados visuais para identificar padrões, interpretar imagens e dar sentido ao mundo que nos rodeia.
Curiosamente, o valor dos dados não se resume à quantidade. É mais importante saber se estão bem organizados e preparados. Se um conjunto de dados estiver desorganizado ou incompleto, pode levar a erros. No entanto, quando os conjuntos de dados são limpos e diversificados, ajudam os modelos de visão por computador a ter um melhor desempenho, quer se trate de reconhecer objectos numa multidão ou de analisar imagens complexas. Conjuntos de dados de alta qualidade fazem toda a diferença.
Neste artigo, vamos explorar os melhores conjuntos de dados de visão computacional de 2025 e ver como eles contribuem para a construção de modelos de visão computacional mais precisos e eficientes. Vamos começar!
Um conjunto de dados de visão computacional é uma coleção de imagens ou vídeos que ajudam os sistemas de visão computacional a aprender a compreender e a reconhecer informações visuais. Estes conjuntos de dados vêm com etiquetas ou anotações que ajudam os modelos a reconhecer objectos, pessoas, cenas e padrões nos dados.
Podem ser utilizados para treinar modelos de visão por computador, ajudando-os a melhorar tarefas como a identificação de rostos, a deteção de objectos ou a análise de cenas. Quanto melhor for o conjunto de dados - bem organizado, diversificado e preciso - melhor será o desempenho do modelo de IA de visão, conduzindo a uma tecnologia mais inteligente e mais útil na vida quotidiana.
Construir um conjunto de dados de visão por computador é como preparar notas de estudo para ensinar alguém a ver e a compreender o mundo. Tudo começa com a recolha de imagens e vídeos que correspondem à aplicação específica que estás a desenvolver.
Um conjunto de dados ideal inclui diversos exemplos dos objectos de interesse, capturados de diferentes ângulos, sob várias condições de iluminação e em vários fundos e ambientes. Esta variedade garante que o modelo de visão por computador aprende a reconhecer padrões com precisão e tem um desempenho fiável em cenários do mundo real.
Depois de reunires imagens e vídeos relevantes, o passo seguinte é a etiquetagem dos dados. Este processo envolve a adição de etiquetas, anotações ou descrições aos dados para que a IA possa compreender o conteúdo de cada imagem ou vídeo.
As etiquetas podem incluir nomes de objectos, localizações, limites ou outros detalhes relevantes que ajudam a treinar o modelo para reconhecer e interpretar a informação visual com precisão. A etiquetagem de dados transforma uma simples coleção de imagens num conjunto de dados estruturado que pode ser utilizado para treinar um modelo de visão por computador.
Deves estar a perguntar-te o que torna um conjunto de dados de alta qualidade. Há muitos factores envolvidos, como a etiquetagem precisa, a diversidade e a consistência. Por exemplo, se vários anotadores estiverem a etiquetar um conjunto de dados de deteção de objectos para identificar orelhas de gato, um pode etiquetá-las como parte da cabeça enquanto outro as etiqueta separadamente como orelhas. Esta inconsistência pode confundir o modelo e afetar a sua capacidade de aprender corretamente.
Segue-se uma breve descrição das qualidades de um conjunto de dados de visão computacional ideal:
Os modelosYOLO Ultralytics , como o YOLO11, foram criados para trabalhar com conjuntos de dados num formato de ficheiro YOLO específico. Embora seja fácil converter os teus próprios dados para este formato, também fornecemos uma opção sem complicações para aqueles que querem começar a experimentar de imediato.
O pacoteUltralytics Python suporta uma vasta gama de conjuntos de dados de visão computacional, permitindo-te mergulhar em projectos que utilizam tarefas como a deteção de objectos, a segmentação de instâncias ou a estimativa de pose sem qualquer configuração adicional.
Os utilizadores podem aceder facilmente a conjuntos de dados prontos a utilizar, como COCO, DOTA-v2.0, Open Images V7 e ImageNet, especificando o nome do conjunto de dados como um dos parâmetros na função de formação. Quando o fizeres, o conjunto de dados é automaticamente transferido e pré-configurado, para que te possas concentrar na criação e aperfeiçoamento dos teus modelos.
Os avanços na IA de visão dependem de conjuntos de dados diversos e em grande escala que impulsionam a inovação e permitem avanços. Vejamos alguns dos conjuntos de dados mais importantes, apoiados pela Ultralytics, que estão a influenciar os modelos de visão computacional.
O ImageNet, criado por Fei-Fei Li e a sua equipa na Universidade de Princeton em 2007 e apresentado em 2009, é um grande conjunto de dados com mais de 14 milhões de imagens marcadas. É amplamente utilizado para treinar sistemas para reconhecer e categorizar diferentes objectos. O seu design estruturado torna-o particularmente útil para ensinar modelos a classificar imagens com precisão. Embora bem documentado, centra-se principalmente na classificação de imagens e carece de anotações detalhadas para tarefas como a deteção de objectos.
Vê aqui alguns dos principais pontos fortes do ImageNet:
No entanto, como qualquer conjunto de dados, tem as suas limitações. Eis alguns dos desafios a considerar:
O conjunto de dados DOTA-v2.0, em que DOTA significa Dataset for Object Detection in Aerial Images (Conjunto de dados para deteção de objectos em imagens aéreas), é uma extensa coleção de imagens aéreas criada especialmente para a deteção de objectos OBB (oriented bounding box). Na deteção de OBB, são utilizadas caixas delimitadoras rodadas para alinhar com mais precisão a orientação real dos objectos na imagem. Este método funciona especialmente bem para imagens aéreas, onde os objectos aparecem frequentemente em vários ângulos, o que leva a uma localização mais precisa e a uma melhor deteção global.
Este conjunto de dados é composto por mais de 11.000 imagens e mais de 1,7 milhões de caixas delimitadoras orientadas em 18 categorias de objectos. As imagens variam entre 800×800 e 20.000×20.000 pixels e incluem objectos como aviões, navios e edifícios.
Devido às suas anotações detalhadas, o DOTA-v2.0 tornou-se uma escolha popular para projectos de deteção remota e vigilância aérea. Aqui estão algumas das principais caraterísticas do DOTA-v2.0:
Embora o DOTA-v2 tenha muitos pontos fortes, aqui estão algumas limitações que os utilizadores devem ter em mente:
O conjunto de dados Roboflow 100 (RF100) foi criado pela Roboflow com o apoio da Intel. Pode ser utilizado para testar e avaliar a eficácia dos modelos de deteção de objectos. Este conjunto de dados de referência inclui 100 conjuntos de dados diferentes escolhidos de entre mais de 90.000 conjuntos de dados públicos. Tem mais de 224.000 imagens e 800 classes de objectos de áreas como os cuidados de saúde, vistas aéreas e jogos.
Eis algumas das principais vantagens da utilização do RF100:
Apesar dos seus pontos fortes, o RF100 também tem alguns inconvenientes a ter em conta:
O conjunto de dados COCO é um dos conjuntos de dados de visão computacional mais utilizados, oferecendo mais de 330.000 imagens com anotações de imagem detalhadas. Foi concebido para deteção de objectos, segmentação e legendagem de imagens, o que o torna um recurso valioso para muitos projectos. As suas etiquetas detalhadas, incluindo caixas delimitadoras e máscaras de segmentação, ajudam os sistemas a aprender a analisar imagens com precisão.
Este conjunto de dados é conhecido pela sua flexibilidade e é útil para várias tarefas, desde projectos simples a complexos. Tornou-se um padrão no campo da IA de visão, frequentemente utilizado em desafios e competições para avaliar o desempenho do modelo.
Alguns dos seus pontos fortes incluem:
Aqui estão alguns factores limitadores que também deves ter em conta:
O Open Images V7 é um enorme conjunto de dados de código aberto com curadoria da Google, que inclui mais de 9 milhões de imagens com anotações para 600 categorias de objectos. Inclui uma variedade de tipos de anotações e é ideal para lidar com tarefas complexas de visão computacional. A sua escala e profundidade fornecem um recurso abrangente para treinar e testar modelos de visão computacional.
Além disso, a popularidade do conjunto de dados Open Images V7 na investigação fornece muitos recursos e exemplos para os utilizadores aprenderem. No entanto, o seu enorme tamanho pode tornar o descarregamento e o processamento demorados, especialmente para equipas mais pequenas. Outro problema é que algumas anotações podem ser inconsistentes, exigindo um esforço extra para limpar os dados, e a integração nem sempre é perfeita, o que significa que pode ser necessária uma preparação adicional.
Escolher o conjunto de dados certo é uma parte importante da preparação do teu projeto de visão por computador para o sucesso. A melhor escolha depende da tua tarefa específica - encontrar uma boa correspondência ajuda o teu modelo a aprender as competências certas. Deve também integrar-se facilmente com as tuas ferramentas, para que te possas concentrar mais na construção do teu modelo e menos na resolução de problemas.
Conjuntos de dados de alta qualidade são a espinha dorsal de qualquer modelo de visão computacional, ajudando os sistemas a aprender a interpretar imagens com precisão. Conjuntos de dados diversificados e bem anotados são especialmente importantes, pois permitem que os modelos tenham um desempenho fiável em cenários do mundo real e reduzem os erros causados por dados limitados ou de má qualidade.
Ultralytics simplifica o processo de acesso e trabalho com conjuntos de dados de visão computacional, facilitando a procura dos dados certos para o teu projeto. Escolher o conjunto de dados certo é um passo crucial na construção de um modelo de alto desempenho, levando a resultados mais precisos e impactantes.
Junta-te à nossa comunidade e explora o nosso repositório GitHub para saberes mais sobre IA. Descobre avanços como a visão computacional para os cuidados de saúde e a IA em carros autónomos nas nossas páginas de soluções. Vê as nossas opções de licenciamento e dá o primeiro passo para começares a trabalhar com visão computacional hoje mesmo!
Começa a tua viagem com o futuro da aprendizagem automática