Glossário

Segmentação semântica

Descobre o poder da segmentação semântica - classifica cada pixel nas imagens para uma compreensão precisa da cena. Explora aplicações e ferramentas agora!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A segmentação semântica é uma tarefa fundamental na visão computacional que envolve a atribuição de uma etiqueta de classe específica a cada pixel de uma imagem. Ao contrário de outras tarefas de visão que podem identificar objectos ou classificar toda a imagem, a segmentação semântica fornece uma compreensão densa, ao nível do pixel, do conteúdo da cena. Isto significa que não detecta apenas que existe um carro, mas delineia com precisão quais os pixels que pertencem à categoria de carro, diferenciando-os dos pixels que pertencem à estrada, ao céu ou aos peões.

O que é a segmentação semântica?

O principal objetivo da segmentação semântica é dividir uma imagem em regiões significativas correspondentes a diferentes categorias de objectos. Por exemplo, numa imagem que contém vários carros, peões e árvores, um modelo de segmentação semântica rotularia todos os pixels que compõem qualquer carro como 'carro', todos os pixels de qualquer peão como 'peão' e todos os pixels de qualquer árvore como 'árvore'. Trata todas as instâncias da mesma classe de objectos de forma idêntica. Isto contrasta com a classificação de imagens, que atribui uma única etiqueta a toda a imagem, e com a deteção de objectos, que desenha caixas delimitadoras à volta dos objectos detectados, mas não delineia a sua forma exacta.

Os modelos de segmentação semântica são normalmente treinados utilizando técnicas de aprendizagem supervisionada, exigindo conjuntos de dados com anotações detalhadas ao nível dos pixels. O resultado é normalmente um mapa de segmentação, que é uma imagem em que o valor (ou cor) de cada pixel corresponde à sua etiqueta de classe prevista.

Principais diferenças em relação a outras tarefas de segmentação

É importante distinguir a segmentação semântica de tarefas relacionadas:

  • Segmentação de instâncias: Enquanto a segmentação semântica identifica todos os pixels pertencentes à classe 'carro' da mesma forma, a segmentação de instância vai um passo além. Identifica e segmenta cada instância individual de um objeto separadamente. Assim, três carros diferentes numa imagem receberiam uma máscara de segmentação única, apesar de todos pertencerem à classe 'carro'. Podes aprender a utilizar Ultralytics YOLO para segmentação de instâncias.
  • Segmentação panóptica: Esta tarefa combina segmentação semântica e de instância. Atribui uma etiqueta de classe a cada pixel (como a segmentação semântica) e também identifica de forma única cada instância de objeto (como a segmentação de instância), proporcionando uma compreensão unificada da cena.

Aplicações da segmentação semântica

A compreensão detalhada da cena proporcionada pela segmentação semântica é crucial para muitas aplicações do mundo real:

  1. Condução autónoma: Os carros de condução autónoma dependem fortemente da segmentação semântica para compreender o que os rodeia. Ao classificar os pixels em categorias como "estrada", "passeio", "peão", "veículo" e "obstáculo", o sistema de condução autónoma pode tomar decisões informadas sobre navegação e segurança.
  2. Análise de imagens médicas: Na área da saúde, a segmentação semântica ajuda a analisar exames médicos como ressonâncias magnéticas ou tomografias computadorizadas. Consegue delinear com precisão órgãos, tecidos ou anomalias, como tumores, ajudando os médicos no diagnóstico, no planeamento do tratamento e na monitorização da progressão da doença. Por exemplo, os modelosUltralytics YOLO podem ser utilizados para a deteção de tumores.
  3. Análise de imagens de satélite: Utilizada para classificar os tipos de cobertura do solo (por exemplo, floresta, água, áreas urbanas), monitorizar a desflorestação, mapear a expansão urbana ou avaliar a saúde das culturas na agricultura de precisão. A IA de visão oferece muitos benefícios para a agricultura.
  4. Robótica: Permite que os robôs percebam o seu ambiente com maior detalhe, necessário para tarefas como a manipulação de objectos e a navegação em ambientes complexos. Sabe mais sobre a integração da visão computacional na robótica.

Modelos e ferramentas

A segmentação semântica emprega frequentemente modelos de aprendizagem profunda, em particular Redes Neuronais Convolucionais (CNN). Arquitecturas como as redes totalmente convolucionais (FCN) e a U-Net são escolhas populares. Modelos modernos como Ultralytics YOLOv8 também oferecem recursos poderosos para tarefas de segmentação. Ferramentas como o Ultralytics HUB oferecem plataformas para treinar, gerir conjuntos de dados como o COCO e implementar modelos de segmentação de forma eficiente.

Lê tudo