Descobre a velocidade e a eficiência dos detectores de objectos de uma fase, como o YOLO, ideal para aplicações em tempo real, como robótica e vigilância.
No domínio da visão computacional (CV), em particular na deteção de objectos, a velocidade e a eficiência são frequentemente tão cruciais como a precisão. Os detectores de objectos de uma fase são uma classe de modelos de aprendizagem profunda concebidos com estas prioridades em mente, oferecendo uma abordagem simplificada para identificar e localizar objectos em imagens ou vídeos. Ao contrário de seus equivalentes de dois estágios, os detectores de um estágio executam a localização de objetos (determinando onde um objeto está) e a classificação (determinando o que é um objeto) em uma única passagem direta da rede neural. Esse design torna-os significativamente mais rápidos e altamente adequados para aplicações de inferência em tempo real.
Os detectores de objectos de uma fase caracterizam-se pela sua conceção de ponta a ponta, que evita um passo separado e computacionalmente intensivo para propor regiões de interesse (áreas susceptíveis de conter objectos). Em vez disso, trata a deteção de objectos como um problema de regressão. O modelo processa toda a imagem de entrada uma vez, normalmente utilizando uma rede de base (frequentemente uma rede neural convolucional ou CNN) para a extração de caraterísticas. Estas caraterísticas são depois introduzidas diretamente numa cabeça de deteção que prevê as coordenadas das caixas delimitadoras, as probabilidades de classe e as pontuações de confiança simultaneamente na grelha da imagem ou nas localizações do mapa de caraterísticas. Esta arquitetura de passagem única dá ênfase à velocidade, tornando-a ideal para aplicações em que o processamento rápido é essencial. Exemplos populares incluem o Ultralytics YOLO da Ultralytics, conhecida por equilibrar velocidade e precisão (como o YOLO11), e o SSD (Single Shot MultiBox Detetor) desenvolvido pela Google Research. Muitos detectores modernos de uma fase são também livres de âncoras, simplificando ainda mais o pipeline em comparação com os métodos mais antigos baseados em âncoras.
A diferença fundamental entre os detectores de objectos de uma fase e de duas fases reside na sua cadeia operacional. Os detectores de duas fases, como a influente R-CNN (Region-based CNN) e os seus sucessores, como a Faster R-CNN, geram primeiro numerosas propostas de regiões utilizando métodos como a pesquisa selectiva ou uma rede de propostas de regiões (RPN). Numa segunda fase distinta, estas propostas são classificadas e as suas caixas delimitadoras são refinadas. Este processo de duas etapas atinge geralmente uma maior precisão, especialmente na deteção de objectos pequenos ou sobrepostos, mas tem o custo de um aumento significativo do tempo de computação e de uma menor velocidade de inferência.
Em contraste, os detectores de uma fase fundem estes passos, realizando a localização e a classificação simultaneamente em toda a imagem de uma só vez. Esta abordagem unificada resulta em ganhos substanciais de velocidade. Historicamente, esta vantagem de velocidade envolveu por vezes um compromisso, levando potencialmente a uma precisão ligeiramente inferior em comparação com os métodos de duas fases mais avançados, particularmente no que diz respeito à precisão da localização. No entanto, os avanços no design da arquitetura, nas funções de perda e nas estratégias de formação permitiram que os detectores modernos de uma fase, como o YOLO11 , reduzissem significativamente esta diferença de desempenho, oferecendo comparações convincentes em vários parâmetros de referência. O desempenho é normalmente avaliado utilizando métricas como a precisão média (mAP) e a intersecção sobre a união (IoU).
A velocidade e a eficiência dos detectores de objectos de uma fase tornam-nos inestimáveis em numerosos cenários do mundo real que exigem uma tomada de decisão e um processamento rápidos:
O desenvolvimento e a implementação de detectores de objectos de uma fase envolvem a utilização de várias ferramentas e plataformas. Estruturas de aprendizagem profunda como PyTorch e TensorFlow fornecem as bibliotecas principais. As bibliotecas de visão computacional, como o OpenCV, oferecem funções essenciais de processamento de imagem. Ultralytics fornece-te o estado da arte Ultralytics YOLO e a plataforma Ultralytics HUB, que simplifica o treino de modelos personalizados em conjuntos de dados como o COCO ou os teus próprios dados, a gestão de experiências e a implementação de modelos de forma eficiente. O treinamento eficaz de modelos geralmente requer um ajuste cuidadoso dos hiperparâmetros e estratégias como o aumento de dados para melhorar a robustez e a generalização. Os modelos podem ser exportados para formatos como ONNX para implantação em várias plataformas de hardware, incluindo dispositivos de ponta.