Arquitecturas de deteção de objectos
Descubra o poder das arquitecturas de deteção de objectos, a espinha dorsal da IA para a compreensão de imagens. Aprenda hoje os tipos, as ferramentas e as aplicações do mundo real!
As arquitecturas de deteção de objectos são os projectos fundamentais para modelos de aprendizagem profunda que realizam a deteção de objectos. Esta tarefa de visão computacional (CV) envolve a identificação da presença e localização de objectos numa imagem ou vídeo, normalmente desenhando uma caixa delimitadora à sua volta e atribuindo uma etiqueta de classe. A arquitetura define a estrutura do modelo, incluindo a forma como processa a informação visual e faz previsões. A escolha da arquitetura é fundamental, uma vez que influencia diretamente a velocidade, a precisão e os requisitos computacionais de um modelo.
Como funcionam as arquitecturas de deteção de objectos
A maioria das arquitecturas modernas de deteção de objectos é constituída por três componentes principais que funcionam em sequência:
- Espinha dorsal: Trata-se de uma rede neural convolucional (CNN), frequentemente pré-treinada num grande conjunto de dados de classificação de imagens como o ImageNet. A sua função principal é atuar como um extrator de caraterísticas, convertendo a imagem de entrada numa série de mapas de caraterísticas que captam informações visuais hierárquicas. As redes backbone populares incluem a ResNet e a CSPDarknet, que é utilizada em muitos modelos YOLO. Pode saber mais sobre os fundamentos das CNNs em fontes como a visão geral detalhada da IBM.
- Pescoço: Este componente opcional situa-se entre a espinha dorsal e a cabeça. Serve para agregar e refinar os mapas de caraterísticas gerados pela espinha dorsal, combinando frequentemente caraterísticas de diferentes escalas para melhorar a deteção de objectos de vários tamanhos. Os exemplos incluem as redes de pirâmides de caraterísticas (FPN).
- Cabeça de deteção: A cabeça é o componente final responsável pela realização das previsões. Recebe os mapas de caraterísticas processados do pescoço (ou diretamente da espinha dorsal) e produz as probabilidades de classe e as coordenadas da caixa delimitadora para cada objeto detectado.
Tipos de arquitecturas
As arquitecturas de deteção de objectos são amplamente categorizadas com base na sua abordagem à previsão, o que leva a um compromisso entre velocidade e precisão. Pode explorar comparações detalhadas de modelos para ver estas compensações em ação.
- Detectores de objectos em duas fases: Estes modelos, como a família R-CNN, identificam primeiro um conjunto de regiões de objectos candidatos (propostas de regiões) e depois classificam cada região. Este processo em duas fases pode atingir uma elevada precisão, mas é frequentemente mais lento.
- Detectores de objectos de uma fase: Arquitecturas como a família Ultralytics YOLO (You Only Look Once) tratam a deteção de objectos como um problema de regressão único. Prevêem caixas delimitadoras e probabilidades de classe diretamente a partir da imagem completa numa única passagem, permitindo a inferência em tempo real.
- Detectores sem âncoras: Uma evolução mais recente nos detectores de uma fase, as arquitecturas sem âncoras como o Ultralytics YOLO11 eliminam a necessidade de caixas de âncoras predefinidas. Isso simplifica o processo de treinamento e geralmente leva a modelos mais rápidos e eficientes.
Aplicações no mundo real
As arquitecturas de deteção de objectos alimentam inúmeras aplicações de IA em diversos sectores:
Ferramentas e tecnologias
O desenvolvimento e a implementação de modelos baseados nestas arquitecturas envolvem frequentemente ferramentas e estruturas especializadas: