Descobre o papel crítico das cabeças de deteção na deteção de objectos, refinando os mapas de caraterísticas para identificar localizações e classes de objectos com precisão.
Na arquitetura dos modelos de deteção de objectos, a cabeça de deteção é um componente crucial, normalmente localizado no final do pipeline da rede. Após a espinha dorsal (que extrai as caraterísticas iniciais) e o pescoço (que agrega e refina essas caraterísticas), a cabeça de deteção pega nas informações de imagem processadas, conhecidas como mapas de caraterísticas, e traduz-as nas previsões finais. Funciona essencialmente como a unidade de tomada de decisões do modelo de aprendizagem profunda, identificando quais os objectos presentes, onde estão localizados através de caixas delimitadoras e atribuindo uma pontuação de confiança a cada deteção.
A cabeça de deteção processa as caraterísticas ricas e abstractas geradas pelas camadas anteriores da rede neural. Estas caraterísticas codificam padrões complexos, texturas e formas relevantes para potenciais objectos na imagem de entrada. A cabeça utiliza normalmente o seu próprio conjunto de camadas, incluindo frequentemente camadas convolucionais, para efetuar duas tarefas principais:
Modelos avançados como Ultralytics YOLO incorporam cabeças de deteção altamente eficientes concebidas para executar estas tarefas rapidamente, permitindo a inferência em tempo real, crucial para muitas aplicações. As previsões são frequentemente pós-processadas utilizando técnicas como a Supressão Não Máxima (NMS) para remover as detecções duplicadas.
As concepções das cabeças de deteção variam significativamente, dependendo da arquitetura específica de deteção de objectos. As principais variações incluem:
Para compreender a cabeça de deteção, é necessário distingui-la de outras partes de um modelo de visão por computador (CV) e de tarefas relacionadas:
A eficácia da cabeça de deteção influencia diretamente o desempenho de numerosas aplicações de IA baseadas na deteção de objectos:
Modelos modernos de deteção de objectos como o YOLOv8 e YOLO11são frequentemente construídos com recurso a frameworks como PyTorch ou TensorFlowapresentam cabeças de deteção sofisticadas optimizadas para velocidade e precisão em conjuntos de dados de referência como o COCO. O treino e a implementação destes modelos são facilitados por plataformas como o Ultralytics HUB, permitindo aos utilizadores tirar partido de poderosas capacidades de deteção para as suas necessidades específicas. A avaliação do desempenho geralmente envolve métricas como mAP e IoU, detalhadas no guia Métricas de desempenho doYOLO .