Descobre o ImageNet, o conjunto de dados inovador que impulsiona os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a investigação, os modelos e as aplicações de IA.
O ImageNet é um conjunto de dados muito grande e fundamental, amplamente utilizado na investigação e desenvolvimento da visão por computador (CV). Consiste em mais de 14 milhões de imagens que foram anotadas manualmente para indicar os objectos retratados, organizados de acordo com a hierarquia WordNet. Com mais de 20.000 categorias (synsets), o ImageNet constitui um recurso rico e diversificado para a formação e avaliação de modelos de aprendizagem automática (ML), nomeadamente para tarefas como a classificação e o reconhecimento de imagens. A sua escala e anotações detalhadas têm sido cruciais para o avanço do campo. Podes saber mais sobre a utilização do conjunto de dados com os modelos Ultralytics na página de documentação do conjunto de dados ImageNet.
A introdução do ImageNet marcou um momento crucial para a aprendizagem profunda (DL), especialmente na visão computacional. Antes do ImageNet, a falta de conjuntos de dados grandes, diversificados e bem rotulados era um grande obstáculo. O ImageNet permitiu o treinamento de modelos muito mais profundos e complexos, como as Redes Neurais Convolucionais (CNNs), levando a avanços significativos. O ImageNet Large Scale Visual Recognition Challenge (ILSVRC), que decorreu de 2010 a 2017, utilizou um subconjunto do ImageNet e tornou-se a referência padrão para avaliar a classificação de imagens e os algoritmos de deteção de objectos. Modelos como o AlexNet e o ResNet, que obtiveram resultados de ponta no ImageNet, influenciaram fortemente as arquitecturas CV modernas.
A principal aplicação do ImageNet é servir de padrão de referência para avaliar novos modelos e algoritmos de visão computacional. Para além da avaliação comparativa, é amplamente utilizado para modelos de pré-treino.
Embora o ImageNet seja vasto e excelente para tarefas de classificação, outros conjuntos de dados têm objectivos diferentes. Por exemplo, o conjunto de dados COCO (Common Objects in Context) é amplamente utilizado para deteção, segmentação e legendagem de objectos, oferecendo anotações mais detalhadas como máscaras de instância e caixas delimitadoras para menos categorias de objectos em comparação com o ImageNet. Do mesmo modo, o Open Images V7 fornece caixas delimitadoras para um grande número de classes de objectos. A escolha do conjunto de dados depende frequentemente da tarefa específica de visão por computador, como a classificação, deteção ou segmentação. A exploração de vários conjuntos de dados de visão computacional ajuda a selecionar o mais adequado para um projeto.