Segmentação de instâncias

Descubra como a segmentação de instâncias refina a deteção de objectos com precisão ao nível do pixel, permitindo máscaras de objectos detalhadas para aplicações de IA.

A segmentação de instâncias é uma tarefa avançada de visão por computador (CV) que identifica e delineia objectos individuais numa imagem ao nível do pixel. Ao contrário de outras tarefas de visão, não se limita a classificar uma imagem ou a desenhar uma caixa delimitadora à volta dos objectos; em vez disso, gera uma máscara precisa ao nível do pixel para cada instância de objeto distinta. Esta técnica proporciona uma compreensão muito mais profunda de uma cena, uma vez que pode diferenciar entre objectos sobrepostos da mesma classe.

Deteção de instâncias vs. deteção semântica e de objectos

É importante distinguir a segmentação de instâncias de outras tarefas relacionadas com a visão computacional.

Deteção de objectos: Esta tarefa identifica a presença e a localização de objectos, normalmente desenhando caixas delimitadoras rectangulares à sua volta e atribuindo uma etiqueta de classe. Responde a "O que está na imagem e onde está?" mas não fornece informações sobre a forma.
Segmentação semântica: Esta tarefa classifica cada pixel de uma imagem numa categoria específica. Por exemplo, rotularia todos os pixéis pertencentes a carros como "carro", mas não distinguiria entre dois carros diferentes na imagem. Responde a "A que categoria pertence cada pixel?".
Segmentação de instâncias: Combina as capacidades de deteção de objectos e de segmentação semântica. Detecta cada instância de objeto e gera uma máscara de segmentação única para a mesma. Numa imagem com três carros, a segmentação de instâncias produziria três máscaras separadas, cada uma correspondendo a um carro específico.
Segmentação panóptica: Esta é a mais abrangente das tarefas de segmentação, fundindo segmentação semântica e de instância. Atribui a cada pixel uma etiqueta de classe e um ID de instância único, fornecendo uma compreensão completa e unificada da cena.

Como funciona a segmentação de instâncias

Os modelos de segmentação de instâncias executam normalmente duas funções principais: primeiro, detectam todas as instâncias de objectos numa imagem e, segundo, geram uma máscara de segmentação para cada instância detectada. Este processo foi popularizado por arquitecturas como a Mask R-CNN, que estende os detectores de objectos como a Faster R-CNN, adicionando um ramo paralelo que prevê uma máscara binária para cada região de interesse. Os modelos modernos refinaram ainda mais este processo para melhorar a velocidade e a precisão, permitindo a inferência em tempo real em muitas aplicações. O desenvolvimento baseia-se frequentemente em poderosas estruturas de aprendizagem profunda, como o PyTorch e o TensorFlow.

Aplicações no mundo real

Os contornos detalhados dos objectos fornecidos pela segmentação de instâncias são valiosos em vários campos.

Veículos autónomos: Os carros autónomos dependem da segmentação de instâncias para identificar com precisão a forma e a localização de peões, veículos e ciclistas individuais. Este detalhe granular é fundamental para uma navegação segura e para o planeamento do caminho, especialmente em ambientes urbanos complexos com muitos objectos sobrepostos. Conjuntos de dados como o Cityscapes têm sido fundamentais para o avanço nesta área.
Análise de imagens médicas: Em radiologia, a segmentação de instâncias é utilizada para delinear tumores, lesões e órgãos a partir de exames de TAC ou RMN com elevada precisão. Isto ajuda os médicos a medir o tamanho de um tumor, planear cirurgias e monitorizar a eficácia do tratamento. Pode saber mais sobre este assunto na nossa publicação no blogue sobre a utilização do YOLO11 para a deteção de tumores.
Robótica: Os robôs utilizam a segmentação de instâncias para compreender o seu ambiente, identificar objectos específicos para agarrar e evitar obstáculos com maior precisão. Isto é crucial para tarefas de fabrico e logística.
Análise de imagens de satélite: Esta técnica é utilizada para contar árvores individuais numa floresta, mapear edifícios numa cidade ou acompanhar as alterações na utilização do solo ao longo do tempo com dados de organizações como a NASA.
Agricultura: Pode ser utilizado para identificar e contar frutos individuais para estimar a produção ou detetar ervas daninhas específicas para aplicação de herbicidas, uma parte essencial da agricultura de precisão.