Glossário

Arquitecturas de deteção de objectos

Descubra o poder das arquitecturas de deteção de objectos, a espinha dorsal da IA para a compreensão de imagens. Aprenda hoje os tipos, as ferramentas e as aplicações do mundo real!

As arquitecturas de deteção de objectos são os projectos fundamentais para modelos de aprendizagem profunda que realizam a deteção de objectos. Esta tarefa de visão computacional (CV) envolve a identificação da presença e localização de objectos numa imagem ou vídeo, normalmente desenhando uma caixa delimitadora à sua volta e atribuindo uma etiqueta de classe. A arquitetura define a estrutura do modelo, incluindo a forma como processa a informação visual e faz previsões. A escolha da arquitetura é fundamental, uma vez que influencia diretamente a velocidade, a precisão e os requisitos computacionais de um modelo.

Como funcionam as arquitecturas de deteção de objectos

A maioria das arquitecturas modernas de deteção de objectos é constituída por três componentes principais que funcionam em sequência:

  • Espinha dorsal: Trata-se de uma rede neural convolucional (CNN), frequentemente pré-treinada num grande conjunto de dados de classificação de imagens como o ImageNet. A sua função principal é atuar como um extrator de caraterísticas, convertendo a imagem de entrada numa série de mapas de caraterísticas que captam informações visuais hierárquicas. As redes backbone populares incluem a ResNet e a CSPDarknet, que é utilizada em muitos modelos YOLO. Pode saber mais sobre os fundamentos das CNNs em fontes como a visão geral detalhada da IBM.
  • Pescoço: Este componente opcional situa-se entre a espinha dorsal e a cabeça. Serve para agregar e refinar os mapas de caraterísticas gerados pela espinha dorsal, combinando frequentemente caraterísticas de diferentes escalas para melhorar a deteção de objectos de vários tamanhos. Os exemplos incluem as redes de pirâmides de caraterísticas (FPN).
  • Cabeça de deteção: A cabeça é o componente final responsável pela realização das previsões. Recebe os mapas de caraterísticas processados do pescoço (ou diretamente da espinha dorsal) e produz as probabilidades de classe e as coordenadas da caixa delimitadora para cada objeto detectado.

Tipos de arquitecturas

As arquitecturas de deteção de objectos são amplamente categorizadas com base na sua abordagem à previsão, o que leva a um compromisso entre velocidade e precisão. Pode explorar comparações detalhadas de modelos para ver estas compensações em ação.

  • Detectores de objectos em duas fases: Estes modelos, como a família R-CNN, identificam primeiro um conjunto de regiões de objectos candidatos (propostas de regiões) e depois classificam cada região. Este processo em duas fases pode atingir uma elevada precisão, mas é frequentemente mais lento.
  • Detectores de objectos de uma fase: Arquitecturas como a família Ultralytics YOLO (You Only Look Once) tratam a deteção de objectos como um problema de regressão único. Prevêem caixas delimitadoras e probabilidades de classe diretamente a partir da imagem completa numa única passagem, permitindo a inferência em tempo real.
  • Detectores sem âncoras: Uma evolução mais recente nos detectores de uma fase, as arquitecturas sem âncoras como o Ultralytics YOLO11 eliminam a necessidade de caixas de âncoras predefinidas. Isso simplifica o processo de treinamento e geralmente leva a modelos mais rápidos e eficientes.

Aplicações no mundo real

As arquitecturas de deteção de objectos alimentam inúmeras aplicações de IA em diversos sectores:

Ferramentas e tecnologias

O desenvolvimento e a implementação de modelos baseados nestas arquitecturas envolvem frequentemente ferramentas e estruturas especializadas:

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência