Glossário

Segmentação de imagens

Descobre o poder da segmentação de imagens com Ultralytics YOLO . Explora a precisão ao nível do pixel, os tipos, as aplicações e os casos de utilização de IA do mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A segmentação de imagens é uma técnica fundamental na visão computacional (CV) que envolve a partição de uma imagem digital em várias regiões ou segmentos distintos. O objetivo principal é atribuir uma etiqueta de classe a cada pixel da imagem, simplificando essencialmente a representação da imagem em algo mais significativo e mais fácil de analisar pelas máquinas. Ao contrário da deteção de objectos, que identifica objectos utilizando caixas delimitadoras rectangulares, a segmentação de imagens fornece uma compreensão muito mais granular, ao nível do pixel, do conteúdo da imagem, delineando a forma exacta dos objectos. Esta precisão é crucial para tarefas que exigem uma perceção espacial detalhada.

Como funciona a segmentação de imagens

Os algoritmos de segmentação de imagens funcionam examinando uma imagem pixel a pixel e agrupando os pixels que partilham determinadas caraterísticas - como cor, intensidade, textura ou localização espacial - em segmentos. Os primeiros métodos baseavam-se em técnicas como limiarização, crescimento de regiões e agrupamento(K-Means, DBSCAN). No entanto, as abordagens modernas utilizam fortemente a aprendizagem profunda (DL), em particular as Redes Neuronais Convolucionais (CNNs). Essas redes neurais aprendem caraterísticas hierárquicas complexas diretamente dos dados de treinamento para realizar a classificação por pixel. O resultado típico é uma máscara de segmentação, uma imagem em que o valor de cada pixel corresponde à etiqueta da classe a que pertence, realçando visualmente os limites precisos dos objectos ou regiões. Estruturas como PyTorch e TensorFlow são normalmente utilizadas para construir e treinar estes modelos.

Tipos de segmentação de imagens

As tarefas de segmentação de imagens podem variar com base na forma como os objectos e as classes são tratados:

  • Segmentação semântica: Atribui cada pixel a uma categoria predefinida (por exemplo, "carro", "estrada", "céu"). Não faz distinção entre diferentes instâncias da mesma classe de objeto. Todos os carros, por exemplo, partilhariam a mesma etiqueta.
  • Segmentação de Instância: Vai um passo mais longe do que a segmentação semântica, identificando e delineando cada instância de objeto individual dentro de uma imagem. Cada carro separado recebe um identificador ou máscara única, mesmo que pertença à mesma classe. Isto é particularmente útil quando é necessário contar ou seguir objectos individuais.
  • Segmentação panóptica: Combina segmentação semântica e de instância. Atribui uma etiqueta de classe a cada pixel (como a segmentação semântica) e identifica de forma única cada instância de objeto (como a segmentação de instância). Fornece uma compreensão abrangente e unificada da cena.

Distinguir a segmentação de imagens de termos relacionados

  • Segmentação de imagens vs. deteção de objectos: A deteção de objectos desenha caixas delimitadoras à volta dos objectos, indicando a sua localização e classe. A segmentação de imagens fornece uma máscara ao nível do pixel que delineia a forma exacta de cada objeto ou região, oferecendo mais detalhes do que uma simples caixa.
  • Segmentação de imagens vs. Classificação de imagens: A classificação de imagens atribui uma única etiqueta a toda a imagem (por exemplo, "contém um gato"). A segmentação de imagens atribui uma etiqueta a cada pixel da imagem, identificando vários objectos ou regiões e as suas formas.
  • Segmentação de imagens vs. reconhecimento de imagens: O reconhecimento de imagens é um termo mais abrangente para tarefas em que a IA identifica objectos, pessoas, locais, etc., em imagens. A segmentação de imagens é um tipo específico de reconhecimento de imagens centrado no particionamento ao nível dos pixéis.

Aplicações no mundo real

A análise detalhada fornecida pela segmentação de imagens permite inúmeras aplicações:

Segmentação de imagens e Ultralytics YOLO

Ultralytics YOLO como o YOLOv8 e YOLO11fornecem desempenho de ponta para tarefas de segmentação de exemplos, equilibrando velocidade e precisão para inferência em tempo real. A estrutura Ultralytics simplifica o processo de treinamento de modelos de segmentação personalizados em conjuntos de dados como COCO ou conjuntos de dados especializados, como peças de automóveis ou segmentação de rachaduras. Ferramentas como o Ultralytics HUB oferecem uma plataforma simplificada para gerenciar conjuntos de dados, treinar modelos(treinamento na nuvem disponível) e implantá-los. Podes explorar a documentação da tarefa de segmentação para obteres detalhes de implementação ou seguir guias como a segmentação com modelos YOLOv8 pré-treinados ou a segmentação de imagens com YOLO11 no Google Colab.

Lê tudo