Glossário

Detectores baseados em âncoras

Descobre como os detectores baseados em âncoras revolucionam a deteção de objectos com localização precisa, adaptabilidade à escala e aplicações no mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os detectores baseados em âncoras representam uma abordagem significativa e fundamental na visão computacional (CV) para lidar com a tarefa de deteção de objectos. Estes modelos funcionam utilizando um conjunto predefinido de caixas de referência, normalmente designadas por "âncoras" ou "priors", que têm tamanhos e rácios de aspeto específicos. As âncoras são distribuídas pela imagem e funcionam como suposições iniciais ou modelos, permitindo ao modelo prever mais eficazmente a localização e a classe dos objectos, especialmente quando se trata de itens de escalas e formas variáveis. Muitos dos primeiros modelos de deteção de objectos influentes, como certas versões do Ultralytics YOLO da Ultralytics, utilizavam esta técnica.

Como funcionam os detectores baseados em âncoras

O conceito fundamental por detrás dos detectores baseados em âncoras consiste em sobrepor uma grelha densa destas caixas de âncoras predefinidas na imagem de entrada em várias localizações e escalas. Cada caixa de ancoragem corresponde a um potencial objeto com um tamanho e forma específicos. Durante o processo de formação do modelo, o detetor aprende duas coisas principais para cada âncora: em primeiro lugar, classifica se a caixa de âncora contém um objeto ou fundo relevante; em segundo lugar, refina a posição e as dimensões da âncora (um processo designado por regressão) para corresponder com precisão à caixa delimitadora do objeto real.

Considera a deteção de vários veículos numa imagem de uma rua movimentada. Em vez de analisar cada grupo de pixels, um modelo baseado em âncoras utiliza modelos de caixas predefinidos: pequenos para peões, quadrados médios para carros e rectângulos maiores para autocarros. Estes modelos (âncoras) são colocados ao longo da imagem. Se uma âncora se sobrepuser significativamente a um automóvel, o modelo aprende a classificá-la como "automóvel" e ajusta as coordenadas e o tamanho da âncora para se ajustar perfeitamente ao automóvel. As âncoras que cobrem apenas a estrada ou os edifícios são classificadas como "fundo". Esta abordagem sistemática, guiada por formas predefinidas, ajuda a gerir a complexidade da deteção de objectos. O desempenho é normalmente avaliado através de métricas como a Intersecção sobre a União (IoU) e a Precisão Média (mAP).

Principais caraterísticas e vantagens

Os detectores baseados em âncoras, muitas vezes aproveitando as poderosas redes neurais convolucionais (CNN) como sua espinha dorsal, oferecem vantagens distintas:

  • Lida com a variação de escala e proporção de aspeto: As âncoras predefinidas cobrem explicitamente várias formas e tamanhos, tornando estes modelos inerentemente bons na deteção de objectos, independentemente das suas dimensões ou orientação.
  • Previsão estruturada: As âncoras fornecem uma forma estruturada de gerar propostas de objectos em toda a imagem, assegurando uma cobertura abrangente.
  • Elevada recuperação: Ao gerar um grande número de potenciais localizações de objectos através de âncoras, estes métodos atingem frequentemente uma elevada recuperação, o que significa que são bons a encontrar os objectos mais relevantes, embora por vezes seja necessário seguir passos de pós-processamento como a Supressão Não Máxima (NMS) para filtrar os duplicados.
  • Desempenho comprovado: Arquitecturas como a Faster R-CNN e a SSD (Single Shot MultiBox Detetor) demonstraram um forte desempenho em conjuntos de dados de referência padrão como o COCO.

Aplicações no mundo real

Os detectores baseados em âncoras têm sido utilizados com sucesso em numerosos cenários reais:

  1. Veículos autónomos: Detetar veículos, peões, ciclistas e sinais de trânsito de vários tamanhos e distâncias é fundamental para uma navegação segura. Métodos baseados em âncoras ajudam a garantir que objetos próximos e distantes, grandes e pequenos, sejam identificados de forma confiável. Empresas como a Waymo dependem fortemente de uma deteção de objectos robusta. Descobre mais sobre a IA em carros autónomos.
  2. Análise de retalho: Nas lojas, estes detectores podem monitorizar as prateleiras para identificar produtos, verificar os níveis de stock ou analisar os padrões de tráfego dos clientes através da deteção de pessoas. A capacidade de lidar com diferentes tamanhos e formas de embalagens de produtos é essencial para aplicações como a gestão de inventário orientada por IA.

Detectores com base em âncoras vs. Detectores sem âncoras

Nos últimos anos, os detectores sem âncoras surgiram como uma alternativa popular. Ao contrário dos modelos baseados em âncoras (e.g., Ultralytics YOLOv5), as abordagens sem âncoras prevêem diretamente a localização e o tamanho dos objectos, muitas vezes identificando pontos-chave (como centros ou cantos de objectos) ou prevendo distâncias de um ponto aos limites do objeto, eliminando a necessidade de formas de âncora predefinidas.

As principais diferenças incluem:

  • Complexidade: Os modelos baseados em âncoras requerem uma conceção cuidadosa e a afinação dos parâmetros das âncoras (tamanhos, rácios, escalas), que podem ser dependentes do conjunto de dados. Os modelos sem âncoras simplificam a conceção da cabeça de deteção.
  • Flexibilidade: Os métodos sem âncoras podem adaptar-se melhor a objectos com rácios de aspeto invulgares ou formas não bem representadas pelo conjunto de âncoras fixas.
  • Eficiência: A eliminação de âncoras pode reduzir o número de previsões que o modelo precisa de fazer, levando potencialmente a uma inferência mais rápida e a um pós-processamento mais simples.

Embora os detectores baseados em âncoras, como o YOLOv4, tenham sido muito bem sucedidos, muitas arquitecturas modernas, incluindo Ultralytics YOLO11adotaram designs sem âncoras para aproveitar seus benefícios em termos de simplicidade e eficiência. Podes explorar as vantagens da deteção sem âncoras no YOLO11 e ver comparações entre diferentes modelos YOLO .

Ferramentas e formação

Desenvolver e implementar modelos de deteção de objectos, quer sejam baseados em âncoras ou sem âncoras, envolve a utilização de estruturas como PyTorch ou TensorFlow e bibliotecas como OpenCV. Plataformas como o Ultralytics HUB oferecem fluxos de trabalho simplificados para treinar modelos personalizados, gerir conjuntos de dados e implementar soluções, suportando várias arquitecturas de modelos. Para aprender mais, recursos como Papers With Code listam modelos de última geração, e cursos de plataformas como DeepLearning.AI cobrem conceitos fundamentais.

Lê tudo