Glossário

Detectores de objectos de uma fase

Descubra a velocidade e a eficiência dos detectores de objectos de uma fase, como o YOLO, ideais para aplicações em tempo real, como a robótica e a vigilância.

Os detectores de objectos de uma fase são uma classe de modelos de aprendizagem profunda concebidos para velocidade e eficiência na visão computacional. Efectuam a localização e classificação de objectos numa única passagem unificada da rede neural. Isto contrasta com as suas contrapartes mais complexas, os detectores de objectos de duas fases, que dividem a tarefa em dois passos distintos. Ao tratar a deteção de objectos como um problema de regressão simples, os modelos de uma fase prevêem caixas delimitadoras e probabilidades de classe diretamente a partir das caraterísticas da imagem, o que os torna excecionalmente rápidos e adequados para aplicações que requerem inferência em tempo real.

Como funcionam os detectores de uma fase

Um detetor de uma fase processa uma imagem inteira de uma só vez através de uma única rede neural convolucional (CNN). A arquitetura da rede foi concebida para executar várias tarefas em simultâneo. Primeiro, a espinha dorsal da rede efectua a extração de caraterísticas, criando representações ricas da imagem de entrada a várias escalas. Estas caraterísticas são depois introduzidas numa cabeça de deteção especializada.

Esta cabeça é responsável pela previsão de um conjunto de caixas delimitadoras, uma pontuação de confiança para cada caixa indicando a presença de um objeto e a probabilidade de cada objeto pertencer a uma classe específica. Todo este processo ocorre numa única passagem para a frente, o que é a chave para a sua elevada velocidade. Técnicas como a supressão não máxima (NMS) são depois utilizadas para filtrar as detecções redundantes e sobrepostas para produzir o resultado final. Os modelos são treinados utilizando uma função de perda especializada que combina a perda de localização (a precisão da caixa delimitadora) e a perda de classificação (a precisão da previsão da classe).

Comparação com detectores de objectos de duas fases

A principal distinção reside na metodologia. Os detectores de uma fase são construídos para serem rápidos e simples, enquanto os detectores de duas fases dão prioridade à precisão, embora esta distinção esteja a tornar-se menos pronunciada com os modelos mais recentes.

  • Detectores de uma fase: Estes modelos, como a família YOLO (You Only Look Once), efectuam a deteção num único passo. São geralmente mais rápidos e têm uma arquitetura mais simples, o que os torna ideais para dispositivos de ponta e aplicações em tempo real. O desenvolvimento de detectores sem âncoras melhorou ainda mais o seu desempenho e simplicidade.
  • Detectores de objectos de duas fases: Modelos como a série R-CNN e as suas variantes mais rápidas geram primeiro um conjunto esparso de propostas de regiões onde os objectos podem estar localizados. Na segunda fase, uma rede separada classifica estas propostas e aperfeiçoa as coordenadas da caixa delimitadora. Este processo em duas fases produz normalmente uma maior precisão, especialmente para objectos pequenos, mas à custa de uma velocidade de inferência significativamente mais lenta. A máscara R-CNN é um exemplo bem conhecido que estende essa abordagem à segmentação de instâncias.

Principais arquitecturas e modelos

Foram desenvolvidas várias arquitecturas de uma fase influentes, cada uma com contribuições únicas:

  • YOLO (You Only Look Once): Introduzido num artigo inovador de 2015, o YOLO enquadrou a deteção de objectos como um problema de regressão único. As versões subsequentes, incluindo o YOLOv8 e o Ultralytics YOLO11 de última geração, melhoraram continuamente o equilíbrio entre velocidade e precisão.
  • Detetor MultiBox de disparo único (SSD): A arquitetura SSD foi outro modelo pioneiro de uma fase que utiliza mapas de caraterísticas multi-escala para detetar objectos de vários tamanhos, melhorando a precisão em relação ao YOLO original.
  • RetinaNet: Este modelo introduziu a Perda Focal, uma nova função de perda concebida para resolver o desequilíbrio extremo de classes encontrado durante a formação de detectores densos, permitindo-lhe ultrapassar a precisão de muitos detectores de duas fases na altura.
  • EfficientDet: Uma família de modelos desenvolvida pela Google Research que se centra na escalabilidade e eficiência, utilizando um método de escalonamento composto e uma nova rede de caraterísticas BiFPN. Pode ver como se compara com outros modelos como YOLO11 vs. EfficientDet.

Aplicações no mundo real

A velocidade e a eficiência dos detectores de uma fase tornaram-nos indispensáveis em numerosas aplicações orientadas para a IA:

  1. Veículos autónomos: Na IA para carros autónomos, os detectores de uma fase são cruciais para a perceção do ambiente em tempo real. Podem identificar e seguir instantaneamente peões, ciclistas, outros veículos e sinais de trânsito, permitindo que o sistema de navegação do veículo tome decisões críticas numa fração de segundo. Empresas como a Tesla utilizam princípios semelhantes para os seus sistemas Autopilot.
  2. Segurança e vigilância inteligentes: Os modelos de uma fase alimentam os sistemas de segurança modernos, analisando as transmissões de vídeo para detetar ameaças como entradas não autorizadas ou actividades suspeitas. Por exemplo, um sistema pode ser treinado para contar pessoas numa fila de espera para gestão de filas ou identificar bagagem abandonada num aeroporto, tudo em tempo real.

Vantagens e limitações

A principal vantagem dos detectores de uma fase é a sua incrível velocidade, que permite a deteção de objectos em tempo real numa variedade de hardware, incluindo dispositivos de IA de ponta de baixo consumo, como o NVIDIA Jetson ou o Raspberry Pi. A sua arquitetura mais simples e completa também os torna mais fáceis de treinar e implementar utilizando estruturas como PyTorch ou TensorFlow.

Historicamente, a principal limitação tem sido a menor precisão em comparação com os detectores de duas fases, especialmente quando se trata de objectos muito pequenos ou fortemente ocluídos. No entanto, os recentes avanços na arquitetura dos modelos e nas técnicas de formação, como se pode ver em modelos como o YOLO11, colmataram significativamente esta lacuna de desempenho, oferecendo uma poderosa combinação de velocidade e elevada precisão para uma vasta gama de tarefas de visão por computador. Plataformas como o Ultralytics HUB simplificam ainda mais o processo de treinamento de modelos personalizados para necessidades específicas.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência