Glossário

Cabeça de deteção

Descobre o papel crítico das cabeças de deteção na deteção de objectos, refinando os mapas de caraterísticas para identificar localizações e classes de objectos com precisão.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Na arquitetura dos modelos de deteção de objectos, a cabeça de deteção é um componente crucial, normalmente localizado no final do pipeline da rede. Após a espinha dorsal (que extrai as caraterísticas iniciais) e o pescoço (que agrega e refina essas caraterísticas), a cabeça de deteção pega nas informações de imagem processadas, conhecidas como mapas de caraterísticas, e traduz-as nas previsões finais. Funciona essencialmente como a unidade de tomada de decisões do modelo de aprendizagem profunda, identificando quais os objectos presentes, onde estão localizados através de caixas delimitadoras e atribuindo uma pontuação de confiança a cada deteção.

Funcionalidade e operação

A cabeça de deteção processa as caraterísticas ricas e abstractas geradas pelas camadas anteriores da rede neural. Estas caraterísticas codificam padrões complexos, texturas e formas relevantes para potenciais objectos na imagem de entrada. A cabeça utiliza normalmente o seu próprio conjunto de camadas, incluindo frequentemente camadas convolucionais, para efetuar duas tarefas principais:

  1. Classificação: Prevê o rótulo da classe para cada objeto detectado (por exemplo, "pessoa", "carro", "cão"). Isto é frequentemente conseguido utilizando técnicas que culminam numa função de ativação Softmax ou semelhante para produzir probabilidades para cada classe.
  2. Localização (Regressão): Prevê as coordenadas precisas da caixa delimitadora que envolve cada objeto detectado. É tratado como um problema de regressão.

Modelos avançados como Ultralytics YOLO incorporam cabeças de deteção altamente eficientes concebidas para executar estas tarefas rapidamente, permitindo a inferência em tempo real, crucial para muitas aplicações. As previsões são frequentemente pós-processadas utilizando técnicas como a Supressão Não Máxima (NMS) para remover as detecções duplicadas.

Componentes principais e variações

As concepções das cabeças de deteção variam significativamente, dependendo da arquitetura específica de deteção de objectos. As principais variações incluem:

  • Baseado em âncora vs. livre de âncora:
    • Os detectores baseados em âncoras, comuns em modelos como o Faster R-CNN e versões anteriores YOLO , baseiam-se num conjunto predefinido de caixas de âncoras de vários tamanhos e proporções em diferentes locais no mapa de caraterísticas. A cabeça prevê deslocamentos para refinar estas âncoras e classifica o objeto dentro delas.
    • Detectores sem âncora, utilizados em modelos como YOLO11 e FCOS, prevêem diretamente as propriedades dos objectos, como pontos centrais e dimensões, sem âncoras predefinidas. Esta abordagem pode simplificar a conceção e melhorar potencialmente a generalização, conforme salientado nas vantagens da deteção sem âncoras.
  • Cabeças acopladas vs. cabeças desacopladas: Alguns projetos usam um único conjunto de camadas (cabeçote acoplado) para classificação e regressão, enquanto outros usam ramificações separadas (cabeçote desacoplado) para cada tarefa, o que às vezes pode melhorar a precisão. Os módulos de cabeçote Ultralytics podem ser explorados mais detalhadamente na documentação da API.

Comparação com outros componentes e tarefas

Para compreender a cabeça de deteção, é necessário distingui-la de outras partes de um modelo de visão por computador (CV) e de tarefas relacionadas:

  • Backbone: A rede backbone (por exemplo, ResNet, VGG) é responsável pela extração inicial de caraterísticas da imagem de entrada, aprendendo caraterísticas hierárquicas desde arestas de baixo nível até partes de objectos de alto nível.
  • Pescoço: Posicionado entre a espinha dorsal e a cabeça, o pescoço agrega frequentemente caraterísticas de várias escalas da espinha dorsal (utilizando técnicas como as Redes de Pirâmides de Caraterísticas) para fornecer um contexto mais rico para a deteção de objectos de vários tamanhos.
  • Classificação de imagens: Ao contrário da deteção de objectos, a classificação de imagens atribui uma única etiqueta a toda a imagem sem localização.
  • Tarefas de segmentação: A Segmentação Semântica classifica cada pixel da imagem, enquanto a Segmentação de Instâncias vai mais longe, distinguindo diferentes instâncias da mesma classe de objeto ao nível do pixel. A deteção de objectos fornece caixas delimitadoras, não máscaras de pixéis.

Aplicações no mundo real

A eficácia da cabeça de deteção influencia diretamente o desempenho de numerosas aplicações de IA baseadas na deteção de objectos:

  1. Condução autónoma: As cabeças de deteção são fundamentais na IA para carros de condução autónoma para identificar e localizar peões, outros veículos, sinais de trânsito e obstáculos em tempo real, permitindo uma navegação segura. Empresas como a Waymo dependem em grande medida desta tecnologia.
  2. Segurança e vigilância: Nos sistemas de segurança, as cabeças de deteção permitem a monitorização automática através da identificação de pessoas não autorizadas, objectos abandonados ou eventos específicos em feeds de vídeo. Isto constitui a base para aplicações como o guia do Sistema de Alarme de SegurançaUltralytics .
  3. Análise de retalho: Utilizada para gestão de inventário, monitorização de prateleiras e análise do comportamento dos clientes.
  4. Imagiologia médica: Ajuda os radiologistas a detetar anomalias como tumores ou fracturas em exames, contribuindo para a análise de imagens médicas.
  5. Fabrico: Permite o controlo de qualidade no fabrico através da deteção automática de defeitos em produtos nas linhas de montagem.

Modelos modernos de deteção de objectos como o YOLOv8 e YOLO11são frequentemente construídos com recurso a frameworks como PyTorch ou TensorFlowapresentam cabeças de deteção sofisticadas optimizadas para velocidade e precisão em conjuntos de dados de referência como o COCO. O treino e a implementação destes modelos são facilitados por plataformas como o Ultralytics HUB, permitindo aos utilizadores tirar partido de poderosas capacidades de deteção para as suas necessidades específicas. A avaliação do desempenho geralmente envolve métricas como mAP e IoU, detalhadas no guia Métricas de desempenho doYOLO .

Lê tudo