Compreende como o Ultralytics YOLO11 suporta a deteção de objectos sem âncoras e as vantagens que esta arquitetura de modelo traz para várias aplicações.
Se olharmos para trás na história dos modelos de IA de visão, o conceito de deteção de objectos - uma tarefa central da visão por computador que envolve a identificação e localização de objectos numa imagem ou vídeo - existe desde a década de 1960. No entanto, a principal razão para a sua importância nas inovações de ponta de hoje é que as técnicas de deteção de objectos e as arquitecturas de modelos avançaram e melhoraram rapidamente desde então.
Num artigo anterior, discutimos a evolução da deteção de objectos e o caminho que conduziu aos modelos Ultralytics YOLO . Hoje, vamos concentrar-nos na exploração de um marco mais específico desta viagem: o salto dos detectores baseados em âncoras para os detectores sem âncoras.
Os detectores baseados em âncoras baseiam-se em caixas predefinidas, chamadas "âncoras", para prever onde se encontram os objectos numa imagem. Em contrapartida, os detectores sem âncoras ignoram estas caixas predefinidas e prevêem diretamente a localização dos objectos.
Embora esta mudança possa parecer uma alteração simples e lógica, na realidade conduziu a grandes melhorias na precisão e eficiência da deteção de objectos. Neste artigo, vamos compreender como os detectores sem âncoras remodelaram a visão por computador através de avanços como Ultralytics YOLO11.
Os detectores baseados em âncoras utilizam caixas predefinidas, conhecidas como âncoras, para ajudar a localizar objectos numa imagem. Pensa nestas âncoras como uma grelha de caixas de diferentes tamanhos e formas colocadas sobre a imagem. O modelo ajusta estas caixas para se adaptarem aos objectos que detecta. Por exemplo, se o modelo identificar um carro, modifica a caixa de ancoragem para corresponder com mais precisão à posição e ao tamanho do carro.
Cada âncora está associada a um possível objeto na imagem e, durante o treino, o modelo aprende a ajustar as caixas de âncora para melhor corresponder à localização, tamanho e proporção do objeto. Isto permite que o modelo detecte objectos em diferentes escalas e orientações. No entanto, a seleção do conjunto correto de caixas de ancoragem pode ser demorada e o processo de afinação pode estar sujeito a erros.
Embora os detectores baseados em âncoras, como o YOLOv4, tenham funcionado bem em muitas aplicações, eles têm algumas desvantagens. Por exemplo, as caixas de ancoragem nem sempre se alinham bem com objectos de diferentes formas ou tamanhos, tornando mais difícil para o modelo detetar objectos pequenos ou com formas irregulares. O processo de seleção e ajuste fino dos tamanhos das caixas de ancoragem também pode ser demorado e requer muito esforço manual. Além disso, os modelos baseados em âncoras têm muitas vezes dificuldade em detetar objectos que estão ocluídos ou sobrepostos, uma vez que as caixas predefinidas podem não se adaptar bem a estes cenários mais complexos.
Os detectores sem âncoras começaram a ganhar atenção em 2018 com modelos como o CornerNet e o CenterNet, que adoptaram uma nova abordagem à deteção de objectos, eliminando a necessidade de caixas de ancoragem predefinidas. Ao contrário dos modelos tradicionais que dependem de caixas de ancoragem de diferentes tamanhos e formas para prever a localização dos objectos, os modelos sem âncoras prevêem diretamente a localização dos objectos. Concentram-se em pontos-chave ou caraterísticas do objeto, como o centro, o que simplifica o processo de deteção e torna-o mais rápido e preciso.
Eis como funcionam geralmente os modelos sem âncora:
Uma vez que os modelos sem âncoras não dependem de caixas de âncoras, têm uma conceção mais simples. Isto significa que são mais eficientes do ponto de vista computacional. Uma vez que não têm de processar várias caixas de ancoragem, podem detetar objectos mais rapidamente - uma vantagem importante em aplicações em tempo real, como a condução autónoma e a vigilância por vídeo.
Os modelos sem âncoras são também muito melhores a lidar com objectos pequenos, irregulares ou ocluídos. Uma vez que se concentram na deteção de pontos-chave em vez de tentarem encaixar caixas de ancoragem, são muito mais flexíveis. Isto permite-lhes detetar objectos com precisão em ambientes desordenados ou complexos, onde os modelos baseados em âncoras podem falhar.
Originalmente concebidos para serem rápidos e eficientes, os modelos YOLO passaram gradualmente de métodos baseados em âncoras para a deteção sem âncoras, tornando modelos como YOLO11 mais rápidos, mais flexíveis e mais adequados a uma vasta gama de aplicações em tempo real.
Vê aqui como o design sem âncoras evoluiu nas diferentes versões do YOLO :
Um excelente exemplo das vantagens da deteção sem âncoras utilizando YOLO11 é nos veículos autónomos. Nos carros autónomos, a deteção rápida e precisa de peões, outros veículos e obstáculos é crucial para a segurança. YOLO11 A abordagem sem âncoras da 's simplifica o processo de deteção ao prever diretamente os pontos-chave dos objectos, como o centro de um peão ou os limites de outro veículo, em vez de depender de caixas de âncoras predefinidas.
YOLO11 não precisa de ajustar ou encaixar uma grelha de âncoras em cada objeto, o que pode ser computacionalmente dispendioso e lento. Em vez disso, concentra-se nas principais caraterísticas, tornando-o mais rápido e eficiente. Por exemplo, quando um peão entra no caminho do veículo, o YOLO11 consegue identificar rapidamente a sua localização, apontando pontos-chave, mesmo que a pessoa esteja parcialmente escondida ou em movimento. A capacidade de se adaptar a formas e tamanhos variáveis sem caixas de ancoragem permite ao YOLO11 detetar objectos de forma mais fiável e a velocidades mais elevadas, o que é vital para a tomada de decisões em tempo real nos sistemas de condução autónoma.
Outras aplicações em que as capacidades sem âncora do YOLO11se destacam realmente incluem:
Embora os modelos sem âncoras, como o YOLO11 , ofereçam muitas vantagens, eles têm algumas limitações. Uma das principais considerações práticas a fazer é que mesmo os modelos sem âncoras podem ter dificuldades com oclusões ou objectos muito sobrepostos. A lógica por detrás disto é que a visão por computador pretende replicar a visão humana e, tal como por vezes temos dificuldade em identificar objectos ocluídos, os modelos de IA podem enfrentar desafios semelhantes.
Outro fator interessante está relacionado com o processamento das previsões do modelo. Embora a arquitetura dos modelos sem âncoras seja mais simples do que a baseada em âncoras, torna-se necessário um refinamento adicional em determinados casos. Por exemplo, podem ser necessárias técnicas de pós-processamento como a supressão não máxima (NMS) para limpar previsões sobrepostas ou melhorar a precisão em cenas com muita gente.
A mudança da deteção baseada em âncoras para a deteção sem âncoras foi um avanço significativo na deteção de objectos. Com modelos sem âncoras como YOLO11, o processo é simplificado, levando a melhorias tanto na precisão como na velocidade.
Através do YOLO11, vimos como a deteção de objectos sem âncoras se destaca em aplicações em tempo real, como carros autónomos, videovigilância e imagiologia médica, onde a deteção rápida e precisa é crucial. Esta abordagem permite que o YOLO11 se adapte mais facilmente a diferentes tamanhos de objectos e cenas complexas, proporcionando um melhor desempenho em diversos ambientes.
À medida que a visão computacional continua a evoluir, a deteção de objectos tornar-se-á mais rápida, mais flexível e mais eficiente.
Explora o nosso repositório GitHub e junta-te à nossa comunidade envolvente para te manteres atualizado sobre tudo o que diz respeito à IA. Vê como a Vision AI está a ter impacto em sectores como o fabrico e a agricultura.
Começa a tua viagem com o futuro da aprendizagem automática