Glossário

ImageNet

Descobre o ImageNet, o conjunto de dados inovador que impulsiona os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a investigação, os modelos e as aplicações de IA.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O ImageNet é um conjunto de dados muito grande e fundamental, amplamente utilizado na investigação e desenvolvimento da visão por computador (CV). Consiste em mais de 14 milhões de imagens que foram anotadas manualmente para indicar os objectos retratados, organizados de acordo com a hierarquia WordNet. Com mais de 20.000 categorias (synsets), o ImageNet constitui um recurso rico e diversificado para a formação e avaliação de modelos de aprendizagem automática (ML), nomeadamente para tarefas como a classificação e o reconhecimento de imagens. A sua escala e anotações detalhadas têm sido cruciais para o avanço do campo. Podes saber mais sobre a utilização do conjunto de dados com os modelos Ultralytics na página de documentação do conjunto de dados ImageNet.

Importância e relevância

A introdução do ImageNet marcou um momento crucial para a aprendizagem profunda (DL), especialmente na visão computacional. Antes do ImageNet, a falta de conjuntos de dados grandes, diversificados e bem rotulados era um grande obstáculo. O ImageNet permitiu o treinamento de modelos muito mais profundos e complexos, como as Redes Neurais Convolucionais (CNNs), levando a avanços significativos. O ImageNet Large Scale Visual Recognition Challenge (ILSVRC), que decorreu de 2010 a 2017, utilizou um subconjunto do ImageNet e tornou-se a referência padrão para avaliar a classificação de imagens e os algoritmos de deteção de objectos. Modelos como o AlexNet e o ResNet, que obtiveram resultados de ponta no ImageNet, influenciaram fortemente as arquitecturas CV modernas.

Aplicações do ImageNet

A principal aplicação do ImageNet é servir de padrão de referência para avaliar novos modelos e algoritmos de visão computacional. Para além da avaliação comparativa, é amplamente utilizado para modelos de pré-treino.

  • Pré-treino para aprendizagem por transferência: Os modelos treinados no ImageNet aprendem caraterísticas visuais gerais que são úteis para uma grande variedade de outras tarefas de visão. Esta técnica, conhecida como aprendizagem por transferência, permite aos programadores adaptar modelos pré-treinados (como os disponíveis no Ultralytics HUB) para aplicações específicas utilizando conjuntos de dados personalizados muito mais pequenos, reduzindo significativamente o tempo de formação e os requisitos de dados. Muitos Ultralytics YOLO do Ultralytics, por exemplo, aproveitam pesos pré-treinados em grandes conjuntos de dados.
  • Avança na pesquisa: O ImageNet continua a alimentar a investigação em áreas como a aprendizagem de representação, a adaptação de domínios e a compreensão do funcionamento interno das redes neurais profundas.

Exemplos do mundo real

  1. Análise de imagens médicas: Embora o ImageNet não contenha imagens médicas, os modelos pré-treinados nele são freqüentemente usados como ponto de partida para tarefas de análise de imagens médicas. As capacidades gerais de extração de caraterísticas aprendidas com o ImageNet podem ser aperfeiçoadas em conjuntos de dados mais pequenos de raios X, tomografias computorizadas ou ressonâncias magnéticas para ajudar a detetar anomalias como tumores ou fracturas, conforme demonstrado em aplicações como a utilização do YOLO para deteção de tumores.
  2. Veículos autónomos: Os modelos de reconhecimento de objectos são fundamentais para os veículos autónomos. Muitos dos modelos fundamentais usados para identificar pedestres, carros, semáforos e sinais de trânsito foram inicialmente desenvolvidos e comparados usando o ImageNet, demonstrando o papel do conjunto de dados na construção dos sistemas de perceção para IA em carros autônomos.

ImageNet vs. Outros conjuntos de dados

Embora o ImageNet seja vasto e excelente para tarefas de classificação, outros conjuntos de dados têm objectivos diferentes. Por exemplo, o conjunto de dados COCO (Common Objects in Context) é amplamente utilizado para deteção, segmentação e legendagem de objectos, oferecendo anotações mais detalhadas como máscaras de instância e caixas delimitadoras para menos categorias de objectos em comparação com o ImageNet. Do mesmo modo, o Open Images V7 fornece caixas delimitadoras para um grande número de classes de objectos. A escolha do conjunto de dados depende frequentemente da tarefa específica de visão por computador, como a classificação, deteção ou segmentação. A exploração de vários conjuntos de dados de visão computacional ajuda a selecionar o mais adequado para um projeto.

Lê tudo