Descobre o poder da segmentação semântica - classifica cada pixel nas imagens para uma compreensão precisa da cena. Explora aplicações e ferramentas agora!
A segmentação semântica é uma tarefa fundamental na visão computacional que envolve a atribuição de uma etiqueta de classe específica a cada pixel de uma imagem. Ao contrário de outras tarefas de visão que podem identificar objectos ou classificar toda a imagem, a segmentação semântica fornece uma compreensão densa, ao nível do pixel, do conteúdo da cena. Isto significa que não detecta apenas que existe um carro, mas delineia com precisão quais os pixels que pertencem à categoria de carro, diferenciando-os dos pixels que pertencem à estrada, ao céu ou aos peões.
O principal objetivo da segmentação semântica é dividir uma imagem em regiões significativas correspondentes a diferentes categorias de objectos. Por exemplo, numa imagem que contém vários carros, peões e árvores, um modelo de segmentação semântica rotularia todos os pixels que compõem qualquer carro como 'carro', todos os pixels de qualquer peão como 'peão' e todos os pixels de qualquer árvore como 'árvore'. Trata todas as instâncias da mesma classe de objectos de forma idêntica. Isto contrasta com a classificação de imagens, que atribui uma única etiqueta a toda a imagem, e com a deteção de objectos, que desenha caixas delimitadoras à volta dos objectos detectados, mas não delineia a sua forma exacta.
Os modelos de segmentação semântica são normalmente treinados utilizando técnicas de aprendizagem supervisionada, exigindo conjuntos de dados com anotações detalhadas ao nível dos pixels. O resultado é normalmente um mapa de segmentação, que é uma imagem em que o valor (ou cor) de cada pixel corresponde à sua etiqueta de classe prevista.
É importante distinguir a segmentação semântica de tarefas relacionadas:
A compreensão detalhada da cena proporcionada pela segmentação semântica é crucial para muitas aplicações do mundo real:
A segmentação semântica emprega frequentemente modelos de aprendizagem profunda, em particular Redes Neuronais Convolucionais (CNN). Arquitecturas como as redes totalmente convolucionais (FCN) e a U-Net são escolhas populares. Modelos modernos como Ultralytics YOLOv8 também oferecem recursos poderosos para tarefas de segmentação. Ferramentas como o Ultralytics HUB oferecem plataformas para treinar, gerir conjuntos de dados como o COCO e implementar modelos de segmentação de forma eficiente.