Glossário

ImageNet

Descobre o ImageNet, o conjunto de dados inovador que impulsiona os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a investigação, os modelos e as aplicações de IA.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A ImageNet é um conjunto de dados fundamental no domínio da visão computacional, concebido para fazer avançar a investigação no domínio do reconhecimento de imagens. Está estruturado de acordo com a hierarquia WordNet, uma base de dados lexical de English, em que cada conceito significativo, principalmente substantivos, verbos, adjectivos e advérbios, é designado por "synset". A ImageNet tem como objetivo mapear todos os synsets da WordNet e, atualmente, fornece cerca de 14 milhões de imagens para mais de 20 000 synsets. Esta vasta coleção torna-a um recurso inestimável para a formação e avaliação de modelos de aprendizagem automática, particularmente em tarefas como a classificação de imagens e a deteção de objectos.

Importância e relevância

A criação do ImageNet foi um momento crucial para a revolução da aprendizagem profunda, particularmente para tarefas de visão computacional. Antes do ImageNet, a escala e a diversidade dos dados de imagens rotuladas eram limitações significativas no treinamento de modelos robustos. O ImageNet resolveu isso fornecendo um conjunto de dados em grande escala e meticulosamente anotado que permitiu aos pesquisadores treinar modelos muito mais profundos e complexos, como as Redes Neurais Convolucionais (CNNs). O ImageNet Large Scale Visual Recognition Challenge (ILSVRC), que decorreu entre 2010 e 2017, tornou-se uma referência para a avaliação de algoritmos de deteção de objectos e classificação de imagens. Os modelos vencedores no ImageNet estabeleceram frequentemente novos resultados de ponta e influenciaram profundamente o desenvolvimento de arquitecturas modernas de visão computacional.

Aplicações do ImageNet

O impacto do ImageNet estende-se a inúmeras aplicações no âmbito da Inteligência Artificial e da Aprendizagem Automática:

  • Pesos de pré-treino: Os modelos pré-treinados no ImageNet servem como excelentes pontos de partida para a aprendizagem por transferência em várias tarefas de visão computacional. Por exemplo, Ultralytics YOLO utilizam frequentemente backbones pré-treinados no ImageNet para melhorar o desempenho em conjuntos de dados e tarefas personalizados. Esta abordagem reduz significativamente o tempo de formação e melhora a precisão do modelo, especialmente quando se trabalha com dados limitados.
  • Aferição de desempenho: O ImageNet continua a ser uma referência crucial para avaliar o desempenho de novos modelos e arquitecturas de reconhecimento de imagens. Os investigadores comunicam frequentemente a precisão do modelo no conjunto de validação do ImageNet para demonstrar o progresso e comparar com os métodos existentes.
  • Metodologias de criação de conjuntos de dados: O projeto ImageNet também influenciou a forma como os novos conjuntos de dados são criados e anotados. O seu rigoroso processo de anotação e a sua abordagem em grande escala estabeleceram um padrão de qualidade e volume de dados na comunidade da visão computacional.
  • Investigação e desenvolvimento: Continua a ser utilizado extensivamente na investigação académica e industrial para explorar novas técnicas de aprendizagem profunda, pesquisa de arquitetura neural e afinação de hiperparâmetros.

Exemplos do mundo real

  1. Classificação de imagens na análise de imagens médicas: Na análise de imagens médicas, os modelos inicialmente treinados no ImageNet podem ser ajustados para classificar imagens médicas, como raios X ou tomografias computadorizadas, para deteção de doenças. Esta abordagem de aprendizagem por transferência permite o desenvolvimento eficiente de ferramentas de diagnóstico, mesmo com dados médicos rotulados limitados.
  2. Deteção de objectos em veículos autónomos: Os veículos autónomos dependem fortemente de arquitecturas de deteção de objectos para perceberem o seu ambiente. Os modelos pré-treinados no ImageNet podem ser adaptados para detetar e classificar objectos da estrada como peões, veículos e sinais de trânsito, contribuindo para veículos autónomos mais seguros e fiáveis.

Embora o ImageNet tenha sido fundamental para o avanço do campo, é importante reconhecer as suas limitações e a evolução contínua para conjuntos de dados mais abrangentes e equilibrados que abordam preconceitos e alargam o âmbito da compreensão visual na IA. Recursos como o Ultralytics HUB facilitam o uso de modelos pré-treinados e conjuntos de dados personalizados, com base nos fundamentos estabelecidos por conjuntos de dados como o ImageNet para enfrentar os desafios reais da visão computacional.

Lê tudo