Descobre como os detectores baseados em âncoras revolucionam a deteção de objectos com localização precisa, adaptabilidade à escala e aplicações no mundo real.
Os detectores baseados em âncoras representam uma abordagem significativa e fundamental na visão computacional (CV) para lidar com a tarefa de deteção de objectos. Estes modelos funcionam utilizando um conjunto predefinido de caixas de referência, normalmente designadas por "âncoras" ou "priors", que têm tamanhos e rácios de aspeto específicos. As âncoras são distribuídas pela imagem e funcionam como suposições iniciais ou modelos, permitindo ao modelo prever mais eficazmente a localização e a classe dos objectos, especialmente quando se trata de itens de escalas e formas variáveis. Muitos dos primeiros modelos de deteção de objectos influentes, como certas versões do Ultralytics YOLO da Ultralytics, utilizavam esta técnica.
O conceito fundamental por detrás dos detectores baseados em âncoras consiste em sobrepor uma grelha densa destas caixas de âncoras predefinidas na imagem de entrada em várias localizações e escalas. Cada caixa de ancoragem corresponde a um potencial objeto com um tamanho e forma específicos. Durante o processo de formação do modelo, o detetor aprende duas coisas principais para cada âncora: em primeiro lugar, classifica se a caixa de âncora contém um objeto ou fundo relevante; em segundo lugar, refina a posição e as dimensões da âncora (um processo designado por regressão) para corresponder com precisão à caixa delimitadora do objeto real.
Considera a deteção de vários veículos numa imagem de uma rua movimentada. Em vez de analisar cada grupo de pixels, um modelo baseado em âncoras utiliza modelos de caixas predefinidos: pequenos para peões, quadrados médios para carros e rectângulos maiores para autocarros. Estes modelos (âncoras) são colocados ao longo da imagem. Se uma âncora se sobrepuser significativamente a um automóvel, o modelo aprende a classificá-la como "automóvel" e ajusta as coordenadas e o tamanho da âncora para se ajustar perfeitamente ao automóvel. As âncoras que cobrem apenas a estrada ou os edifícios são classificadas como "fundo". Esta abordagem sistemática, guiada por formas predefinidas, ajuda a gerir a complexidade da deteção de objectos. O desempenho é normalmente avaliado através de métricas como a Intersecção sobre a União (IoU) e a Precisão Média (mAP).
Os detectores baseados em âncoras, muitas vezes aproveitando as poderosas redes neurais convolucionais (CNN) como sua espinha dorsal, oferecem vantagens distintas:
Os detectores baseados em âncoras têm sido utilizados com sucesso em numerosos cenários reais:
Nos últimos anos, os detectores sem âncoras surgiram como uma alternativa popular. Ao contrário dos modelos baseados em âncoras (e.g., Ultralytics YOLOv5), as abordagens sem âncoras prevêem diretamente a localização e o tamanho dos objectos, muitas vezes identificando pontos-chave (como centros ou cantos de objectos) ou prevendo distâncias de um ponto aos limites do objeto, eliminando a necessidade de formas de âncora predefinidas.
As principais diferenças incluem:
Embora os detectores baseados em âncoras, como o YOLOv4, tenham sido muito bem sucedidos, muitas arquitecturas modernas, incluindo Ultralytics YOLO11adotaram designs sem âncoras para aproveitar seus benefícios em termos de simplicidade e eficiência. Podes explorar as vantagens da deteção sem âncoras no YOLO11 e ver comparações entre diferentes modelos YOLO .
Desenvolver e implementar modelos de deteção de objectos, quer sejam baseados em âncoras ou sem âncoras, envolve a utilização de estruturas como PyTorch ou TensorFlow e bibliotecas como OpenCV. Plataformas como o Ultralytics HUB oferecem fluxos de trabalho simplificados para treinar modelos personalizados, gerir conjuntos de dados e implementar soluções, suportando várias arquitecturas de modelos. Para aprender mais, recursos como Papers With Code listam modelos de última geração, e cursos de plataformas como DeepLearning.AI cobrem conceitos fundamentais.