Os detectores de objectos em duas fases representam uma categoria de arquitecturas de deteção de objectos na visão por computador (CV) que dão prioridade à precisão, dividindo o processo de deteção em duas fases distintas. Estes detectores são concebidos para identificar primeiro as regiões de interesse (RoIs) numa imagem onde os objectos podem estar presentes e, em seguida, na segunda fase, classificar os objectos nessas regiões propostas e refinar as suas localizações (caixas delimitadoras). Esta abordagem metódica permite uma análise mais detalhada de cada potencial objeto, conduzindo frequentemente a uma maior precisão de deteção, especialmente em cenários complexos ou na deteção de pequenos objectos.
Como funcionam os detectores de duas fases
O funcionamento dos detectores de duas fases envolve um processo sequencial, aproveitando as técnicas de aprendizagem profunda, nomeadamente as redes neurais convolucionais (CNN).
- Fase 1: Proposta de região: A primeira etapa normalmente usa uma Rede de Proposta de Região (RPN), um conceito popularizado pelo modelo Faster R-CNN. A RPN examina as caraterísticas da imagem (extraídas por uma CNN de base como a ResNet) e propõe um conjunto de regiões candidatas com probabilidade de conter objectos. Estas propostas são essencialmente caixas de delimitação grosseiras em torno de objectos potenciais.
- Fase 2: Classificação e refinamento: As regiões propostas (RoIs) são então passadas para a segunda fase. Para cada RoI, as caraterísticas são extraídas (muitas vezes usando técnicas como RoIPool ou RoIAlign), e uma rede neural (NN) executa duas tarefas: classificar o objeto dentro da RoI (por exemplo, 'carro', 'pessoa', 'fundo') e refinar as coordenadas da caixa delimitadora para ajustar o objeto com mais precisão. Exemplos proeminentes incluem a família R-CNN(O que é R-CNN?, Fast R-CNN, Faster R-CNN) e Mask R-CNN, que estende essa abordagem para realizar a segmentação de instâncias.
Vantagens e desvantagens
Os detectores de duas fases oferecem vantagens distintas, mas também apresentam desvantagens:
Vantagens:
- Alta precisão: A separação entre a geração de propostas e a classificação/refinamento permite um processamento mais direcionado, resultando geralmente numa maior precisão, particularmente medida por métricas como a precisão média (mAP).
- Melhor localização: A fase de refinamento conduz frequentemente a previsões de caixas delimitadoras mais precisas.
- Eficaz para objectos pequenos: Podem ter um desempenho melhor do que os detectores de uma fase na identificação de objectos mais pequenos numa imagem devido à segunda fase focada.
Desvantagens:
- Velocidade mais lenta: O processo sequencial de duas fases requer inerentemente mais tempo de computação, resultando numa latência de inferência mais baixa em comparação com os métodos de uma fase. Isto torna-os menos adequados para aplicações que requerem inferência em tempo real.
- Complexidade: A arquitetura é geralmente mais complexa de implementar e treinar.
- Custo computacional mais elevado: Normalmente, requerem mais recursos computacionais (como GPUs) tanto para o treino como para a inferência.
Aplicações no mundo real
A elevada precisão dos detectores de duas fases torna-os valiosos em aplicações onde a precisão é fundamental:
- Análise de imagens médicas: Detetar anomalias subtis, como pequenos tumores ou lesões em exames de TAC ou RMN, em que a elevada precisão é fundamental para o diagnóstico. Modelos como Mask R-CNN foram adaptados para essas tarefas em IA na área da saúde (ver exemplo: Mask R-CNN em imagens médicas).
- Condução autónoma: Permitir que os sistemas de perceção detalhada em veículos autónomos detectem e classifiquem com precisão vários objectos, como peões, veículos e sinais de trânsito, mesmo em ambientes desordenados ou desafiantes, contribuindo para a segurança geral no âmbito da IA no sector automóvel.
- Imagens de satélite de alta resolução: Análise de imagens de satélite detalhadas para a identificação precisa de objectos, como o seguimento de tipos específicos de veículos ou alterações de infra-estruturas na análise de imagens de satélite.
- Controlo de qualidade no fabrico: Inspecciona produtos para detetar pequenos defeitos que requerem uma elevada precisão de localização em IA no fabrico. Estruturas como o Detectron2 da Meta AI fornecem implementações de modelos populares de duas fases.