Descubra a velocidade e a eficiência dos detectores de objectos de uma fase, como o YOLO, ideais para aplicações em tempo real, como a robótica e a vigilância.
Os detectores de objectos de uma fase são uma classe de modelos de aprendizagem profunda concebidos para velocidade e eficiência na visão computacional. Efectuam a localização e classificação de objectos numa única passagem unificada da rede neural. Isto contrasta com as suas contrapartes mais complexas, os detectores de objectos de duas fases, que dividem a tarefa em dois passos distintos. Ao tratar a deteção de objectos como um problema de regressão simples, os modelos de uma fase prevêem caixas delimitadoras e probabilidades de classe diretamente a partir das caraterísticas da imagem, o que os torna excecionalmente rápidos e adequados para aplicações que requerem inferência em tempo real.
Um detetor de uma fase processa uma imagem inteira de uma só vez através de uma única rede neural convolucional (CNN). A arquitetura da rede foi concebida para executar várias tarefas em simultâneo. Primeiro, a espinha dorsal da rede efectua a extração de caraterísticas, criando representações ricas da imagem de entrada a várias escalas. Estas caraterísticas são depois introduzidas numa cabeça de deteção especializada.
Esta cabeça é responsável pela previsão de um conjunto de caixas delimitadoras, uma pontuação de confiança para cada caixa indicando a presença de um objeto e a probabilidade de cada objeto pertencer a uma classe específica. Todo este processo ocorre numa única passagem para a frente, o que é a chave para a sua elevada velocidade. Técnicas como a supressão não máxima (NMS) são depois utilizadas para filtrar as detecções redundantes e sobrepostas para produzir o resultado final. Os modelos são treinados utilizando uma função de perda especializada que combina a perda de localização (a precisão da caixa delimitadora) e a perda de classificação (a precisão da previsão da classe).
A principal distinção reside na metodologia. Os detectores de uma fase são construídos para serem rápidos e simples, enquanto os detectores de duas fases dão prioridade à precisão, embora esta distinção esteja a tornar-se menos pronunciada com os modelos mais recentes.
Foram desenvolvidas várias arquitecturas de uma fase influentes, cada uma com contribuições únicas:
A velocidade e a eficiência dos detectores de uma fase tornaram-nos indispensáveis em numerosas aplicações orientadas para a IA:
A principal vantagem dos detectores de uma fase é a sua incrível velocidade, que permite a deteção de objectos em tempo real numa variedade de hardware, incluindo dispositivos de IA de ponta de baixo consumo, como o NVIDIA Jetson ou o Raspberry Pi. A sua arquitetura mais simples e completa também os torna mais fáceis de treinar e implementar utilizando estruturas como PyTorch ou TensorFlow.
Historicamente, a principal limitação tem sido a menor precisão em comparação com os detectores de duas fases, especialmente quando se trata de objectos muito pequenos ou fortemente ocluídos. No entanto, os recentes avanços na arquitetura dos modelos e nas técnicas de formação, como se pode ver em modelos como o YOLO11, colmataram significativamente esta lacuna de desempenho, oferecendo uma poderosa combinação de velocidade e elevada precisão para uma vasta gama de tarefas de visão por computador. Plataformas como o Ultralytics HUB simplificam ainda mais o processo de treinamento de modelos personalizados para necessidades específicas.