Glossário

Arquitecturas de deteção de objectos

Descobre o poder das arquitecturas de deteção de objectos, a espinha dorsal da IA para a compreensão de imagens. Aprende hoje os tipos, as ferramentas e as aplicações do mundo real!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

As arquitecturas de deteção de objectos são as estruturas fundamentais subjacentes à forma como os sistemas de inteligência artificial (IA) interpretam a informação visual. Estas redes neurais especializadas são concebidas não só para classificar objectos numa imagem (identificando o que está presente), mas também para os localizar com precisão, normalmente desenhando caixas delimitadoras em torno de cada instância detectada. Para quem está familiarizado com os conceitos básicos de aprendizagem automática (ML), compreender estas arquitecturas é crucial para tirar partido das capacidades da visão computacional (CV) moderna. Constituem a espinha dorsal dos sistemas que permitem às máquinas "ver" e compreender o mundo de uma forma semelhante à dos humanos.

Componentes principais

A maioria das arquitecturas de deteção de objectos é constituída por vários componentes-chave que trabalham em conjunto. Uma rede de base, frequentemente uma rede neural convolucional (CNN), efectua a extração inicial de caraterísticas da imagem de entrada, identificando padrões de baixo nível, como arestas e texturas, e caraterísticas progressivamente mais complexas. Segue-se frequentemente um componente "pescoço", que agrega caraterísticas de diferentes fases da espinha dorsal para criar representações mais ricas adequadas à deteção de objectos a várias escalas, um conceito detalhado em recursos como o documento Feature Pyramid Network. Finalmente, a cabeça de deteção utiliza estas caraterísticas para prever a classe e a localização (coordenadas da caixa delimitadora) dos objectos. O desempenho é frequentemente medido usando métricas como Intersecção sobre União (IoU) para avaliar a precisão da localização e Precisão Média (mAP) para a qualidade geral da deteção, com explicações detalhadas disponíveis em sites como a página de avaliação do conjunto de dados COCO.

Tipos de arquitecturas

As arquitecturas de deteção de objectos são classificadas em termos gerais com base na sua abordagem:

Distinção de termos semelhantes

É importante distinguir as arquitecturas de deteção de objectos das tarefas de visão computacional relacionadas:

  • Classificação de imagens: Atribui um único rótulo a uma imagem inteira (por exemplo, "gato", "cão"). Identifica o que está na imagem globalmente, mas não onde os objectos específicos estão localizados. Consulte a documentação da tarefa de classificaçãoUltralytics para obter exemplos.
  • Segmentação semântica: Classifica cada pixel de uma imagem numa categoria predefinida (por exemplo, todos os pixels pertencentes a carros são rotulados como "carro"). Fornece uma previsão densa, mas não distingue entre diferentes instâncias da mesma classe de objeto.
  • Segmentação de instâncias: Vai um passo além da segmentação semântica, classificando cada pixel e diferenciando entre instâncias de objetos individuais (por exemplo, rotulando "carro 1", "carro 2"). Combina a deteção de objectos e a segmentação semântica. Consulta a documentação da tarefa de segmentaçãoUltralytics para obteres mais detalhes.

Aplicações no mundo real

As arquitecturas de deteção de objectos alimentam inúmeras aplicações de IA em diversos sectores:

Ferramentas e tecnologias

O desenvolvimento e a implementação de modelos baseados nestas arquitecturas envolvem frequentemente ferramentas e estruturas especializadas:

Lê tudo