Verificação verde
Link copiado para a área de transferência

As vantagens de Ultralytics YOLO11 ser um detetor sem âncora

Compreende como o Ultralytics YOLO11 suporta a deteção de objectos sem âncoras e as vantagens que esta arquitetura de modelo traz para várias aplicações.

Se olharmos para trás na história dos modelos de IA de visão, o conceito de deteção de objectos - uma tarefa central da visão por computador que envolve a identificação e localização de objectos numa imagem ou vídeo - existe desde a década de 1960. No entanto, a principal razão para a sua importância nas inovações de ponta de hoje é que as técnicas de deteção de objectos e as arquitecturas de modelos avançaram e melhoraram rapidamente desde então. 

Num artigo anterior, discutimos a evolução da deteção de objectos e o caminho que conduziu aos modelos Ultralytics YOLO . Hoje, vamos concentrar-nos na exploração de um marco mais específico desta viagem: o salto dos detectores baseados em âncoras para os detectores sem âncoras. 

Os detectores baseados em âncoras baseiam-se em caixas predefinidas, chamadas "âncoras", para prever onde se encontram os objectos numa imagem. Em contrapartida, os detectores sem âncoras ignoram estas caixas predefinidas e prevêem diretamente a localização dos objectos.

Embora esta mudança possa parecer uma alteração simples e lógica, na realidade conduziu a grandes melhorias na precisão e eficiência da deteção de objectos. Neste artigo, vamos compreender como os detectores sem âncoras remodelaram a visão por computador através de avanços como Ultralytics YOLO11.

O que são detectores baseados em âncoras?

Os detectores baseados em âncoras utilizam caixas predefinidas, conhecidas como âncoras, para ajudar a localizar objectos numa imagem. Pensa nestas âncoras como uma grelha de caixas de diferentes tamanhos e formas colocadas sobre a imagem. O modelo ajusta estas caixas para se adaptarem aos objectos que detecta. Por exemplo, se o modelo identificar um carro, modifica a caixa de ancoragem para corresponder com mais precisão à posição e ao tamanho do carro.

Cada âncora está associada a um possível objeto na imagem e, durante o treino, o modelo aprende a ajustar as caixas de âncora para melhor corresponder à localização, tamanho e proporção do objeto. Isto permite que o modelo detecte objectos em diferentes escalas e orientações. No entanto, a seleção do conjunto correto de caixas de ancoragem pode ser demorada e o processo de afinação pode estar sujeito a erros.

Figura 1. O que é uma caixa de ancoragem?

Embora os detectores baseados em âncoras, como o YOLOv4, tenham funcionado bem em muitas aplicações, eles têm algumas desvantagens. Por exemplo, as caixas de ancoragem nem sempre se alinham bem com objectos de diferentes formas ou tamanhos, tornando mais difícil para o modelo detetar objectos pequenos ou com formas irregulares. O processo de seleção e ajuste fino dos tamanhos das caixas de ancoragem também pode ser demorado e requer muito esforço manual. Além disso, os modelos baseados em âncoras têm muitas vezes dificuldade em detetar objectos que estão ocluídos ou sobrepostos, uma vez que as caixas predefinidas podem não se adaptar bem a estes cenários mais complexos.

A mudança para a deteção de objectos sem âncoras

Os detectores sem âncoras começaram a ganhar atenção em 2018 com modelos como o CornerNet e o CenterNet, que adoptaram uma nova abordagem à deteção de objectos, eliminando a necessidade de caixas de ancoragem predefinidas. Ao contrário dos modelos tradicionais que dependem de caixas de ancoragem de diferentes tamanhos e formas para prever a localização dos objectos, os modelos sem âncoras prevêem diretamente a localização dos objectos. Concentram-se em pontos-chave ou caraterísticas do objeto, como o centro, o que simplifica o processo de deteção e torna-o mais rápido e preciso.

Eis como funcionam geralmente os modelos sem âncora:

  • Deteção de pontos-chave: Em vez de utilizar caixas predefinidas, alguns modelos identificam pontos importantes de um objeto, como o centro ou cantos específicos. Estes pontos-chave ajudam os modelos a descobrir onde está o objeto e qual a sua dimensão.
  • Centro previsão: Alguns modelos centram-se na previsão do centro de um objeto. Uma vez localizado o centro, o modelo pode prever o tamanho e a posição de todo o objeto a partir daí.
  • Regressão de mapas de calor: Muitos modelos sem âncoras utilizam heatmaps, em que cada pixel representa uma possível localização de um objeto. Valores de mapa de calor mais fortes indicam uma maior confiança de que um objeto está presente nesse ponto.
Figura 2. Deteção com base em âncoras vs. Deteção sem âncoras.

Uma vez que os modelos sem âncoras não dependem de caixas de âncoras, têm uma conceção mais simples. Isto significa que são mais eficientes do ponto de vista computacional. Uma vez que não têm de processar várias caixas de ancoragem, podem detetar objectos mais rapidamente - uma vantagem importante em aplicações em tempo real, como a condução autónoma e a vigilância por vídeo. 

Os modelos sem âncoras são também muito melhores a lidar com objectos pequenos, irregulares ou ocluídos. Uma vez que se concentram na deteção de pontos-chave em vez de tentarem encaixar caixas de ancoragem, são muito mais flexíveis. Isto permite-lhes detetar objectos com precisão em ambientes desordenados ou complexos, onde os modelos baseados em âncoras podem falhar.

Ultralytics YOLO11: Um detetor sem âncora

Originalmente concebidos para serem rápidos e eficientes, os modelos YOLO passaram gradualmente de métodos baseados em âncoras para a deteção sem âncoras, tornando modelos como YOLO11 mais rápidos, mais flexíveis e mais adequados a uma vasta gama de aplicações em tempo real.

Vê aqui como o design sem âncoras evoluiu nas diferentes versões do YOLO :

  • Ultralytics YOLOv5u: Introduziu a cabeça de divisão sem âncora Ultralytics , eliminando a necessidade de caixas de âncora predefinidas. Em vez disso, o modelo prevê diretamente onde se encontram os objectos numa imagem, simplificando o processo e melhorando a flexibilidade e a velocidade.
  • YOLOv6: Foi utilizado um novo método designado por Anchor-Aided Training (AAT), em que as âncoras foram utilizadas apenas durante o treino. Isto permitiu que o modelo beneficiasse da estrutura dos métodos baseados em âncoras durante o treino, continuando a utilizar a deteção sem âncoras em tempo de execução para uma melhor velocidade e adaptabilidade.
  • Ultralytics YOLOv8: Mudou totalmente para a deteção sem âncoras utilizando a cabeça dividida sem âncoras Ultralytics . Isto tornou o modelo mais rápido e mais preciso, especialmente para objectos pequenos ou com formas estranhas que não se adaptam bem às caixas de ancoragem.
  • Ultralytics YOLO11: Baseia-se na abordagem sem âncoras do YOLOv8, optimizando ainda mais a deteção ao eliminar totalmente as caixas de âncoras. Isto resulta numa deteção mais rápida e precisa para aplicações em tempo real, como a monitorização do comportamento animal e a análise de retalho.
Fig. 3. Comparação entre Ultralytics YOLOv8 e Ultralytics YOLO11 .

Aplicações do mundo real de YOLO11

Um excelente exemplo das vantagens da deteção sem âncoras utilizando YOLO11 é nos veículos autónomos. Nos carros autónomos, a deteção rápida e precisa de peões, outros veículos e obstáculos é crucial para a segurança. YOLO11 A abordagem sem âncoras da 's simplifica o processo de deteção ao prever diretamente os pontos-chave dos objectos, como o centro de um peão ou os limites de outro veículo, em vez de depender de caixas de âncoras predefinidas. 

Figura 4. Benefícios da deteção sem âncoras em YOLO11 (Imagem do autor).

YOLO11 não precisa de ajustar ou encaixar uma grelha de âncoras em cada objeto, o que pode ser computacionalmente dispendioso e lento. Em vez disso, concentra-se nas principais caraterísticas, tornando-o mais rápido e eficiente. Por exemplo, quando um peão entra no caminho do veículo, o YOLO11 consegue identificar rapidamente a sua localização, apontando pontos-chave, mesmo que a pessoa esteja parcialmente escondida ou em movimento. A capacidade de se adaptar a formas e tamanhos variáveis sem caixas de ancoragem permite ao YOLO11 detetar objectos de forma mais fiável e a velocidades mais elevadas, o que é vital para a tomada de decisões em tempo real nos sistemas de condução autónoma.

Outras aplicações em que as capacidades sem âncora do YOLO11se destacam realmente incluem:

  • Gestão do retalho e do inventário: YOLO11 facilita a monitorização dos produtos nas prateleiras, mesmo quando estão empilhados ou parcialmente bloqueados. Isto ajuda a um acompanhamento mais rápido e preciso do inventário e reduz os erros.
  • Imagens médicasO YOLO11 também é eficaz nos cuidados de saúde, onde pode detetar tumores ou outras anomalias em exames médicos. A sua capacidade de trabalhar com objectos de forma irregular ajuda a melhorar a precisão no diagnóstico de condições complexas.
  • Monitorização da vida selvagem: Na investigação da vida selvagem, o YOLO11 pode localizar animais em florestas densas ou terrenos difíceis, ajudando os investigadores a monitorizar o comportamento ou a proteger espécies em perigo.
  • Análise desportiva: YOLO11 pode ser utilizado para seguir jogadores, movimentos de bola ou outros elementos em tempo real durante eventos desportivos para fornecer informações valiosas a equipas, treinadores e emissoras.

Considerações a ter em conta ao trabalhar com modelos sem ancoragem

Embora os modelos sem âncoras, como o YOLO11 , ofereçam muitas vantagens, eles têm algumas limitações. Uma das principais considerações práticas a fazer é que mesmo os modelos sem âncoras podem ter dificuldades com oclusões ou objectos muito sobrepostos. A lógica por detrás disto é que a visão por computador pretende replicar a visão humana e, tal como por vezes temos dificuldade em identificar objectos ocluídos, os modelos de IA podem enfrentar desafios semelhantes.

Outro fator interessante está relacionado com o processamento das previsões do modelo. Embora a arquitetura dos modelos sem âncoras seja mais simples do que a baseada em âncoras, torna-se necessário um refinamento adicional em determinados casos. Por exemplo, podem ser necessárias técnicas de pós-processamento como a supressão não máxima (NMS) para limpar previsões sobrepostas ou melhorar a precisão em cenas com muita gente.

Ancorando no futuro da IA com YOLO11

A mudança da deteção baseada em âncoras para a deteção sem âncoras foi um avanço significativo na deteção de objectos. Com modelos sem âncoras como YOLO11, o processo é simplificado, levando a melhorias tanto na precisão como na velocidade.

Através do YOLO11, vimos como a deteção de objectos sem âncoras se destaca em aplicações em tempo real, como carros autónomos, videovigilância e imagiologia médica, onde a deteção rápida e precisa é crucial. Esta abordagem permite que o YOLO11 se adapte mais facilmente a diferentes tamanhos de objectos e cenas complexas, proporcionando um melhor desempenho em diversos ambientes.

À medida que a visão computacional continua a evoluir, a deteção de objectos tornar-se-á mais rápida, mais flexível e mais eficiente.

Explora o nosso repositório GitHub e junta-te à nossa comunidade envolvente para te manteres atualizado sobre tudo o que diz respeito à IA. Vê como a Vision AI está a ter impacto em sectores como o fabrico e a agricultura.

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática