Saiba como a segmentação de instâncias permite a deteção de objetos ao nível do pixel. Descubra como usar Ultralytics para geração de máscaras em tempo real e alta velocidade, e muito mais.
A segmentação de instâncias é uma técnica sofisticada em visão computacional (CV) que identifica e delineia cada objeto distinto de interesse dentro de uma imagem ao nível do pixel. Enquanto a deteção padrão de objetos localiza itens usando caixas delimitadoras retangulares, a segmentação de instâncias aprofunda a análise, gerando uma máscara precisa para cada entidade detetada. Essa capacidade permite que os modelos de inteligência artificial (IA) distinguam entre objetos individuais da mesma classe — como separar duas pessoas sobrepostas —, proporcionando uma compreensão mais rica e detalhada da cena visual em comparação com métodos de classificação mais simples.
Para compreender totalmente a utilidade da segmentação de instâncias, é útil diferenciá-la de outras tarefas relacionadas ao processamento de imagens. Cada método oferece um nível diferente de granularidade, dependendo dos requisitos da aplicação.
Os modelos modernos de segmentação de instâncias normalmente dependem de arquiteturas avançadas de aprendizagem profunda (DL), particularmente Redes Neurais Convolucionais (CNNs). Essas redes extraem características de uma imagem para prever tanto a classe de um objeto quanto o seu contorno espacial. Historicamente, arquiteturas de duas etapas, como Mask R-CNN, eram o padrão, primeiro propondo regiões de interesse e, em seguida, refinando-as em máscaras.
No entanto, avanços recentes levaram ao desenvolvimento de detetores de estágio único, como o YOLO26, que realizam detecção e segmentação simultaneamente. Essa abordagem "ponta a ponta" melhora significativamente as velocidades de inferência em tempo real, tornando possível aplicar segmentação de alta precisão a transmissões de vídeo ao vivo em hardware de consumo.
Os limites precisos fornecidos pela segmentação de instâncias são críticos para indústrias onde compreender a forma e a posição exatas de um objeto é necessário para a tomada de decisões.
Os programadores podem implementar facilmente a segmentação de instâncias utilizando a função ultralytics biblioteca. O exemplo a seguir
demonstra como carregar um modelo pré-treinado YOLO26 modelo
e gerar máscaras de segmentação para uma imagem.
from ultralytics import YOLO
# Load a pre-trained YOLO26 instance segmentation model
# The 'n' suffix denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
# This predicts classes, bounding boxes, and masks
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results
# Displays the image with overlaid segmentation masks
results[0].show()
Embora poderosa, a segmentação de instâncias é computacionalmente intensiva em comparação com a detecção simples de caixas delimitadoras. A geração de máscaras com pixels perfeitos requer GPU significativos GPU e anotação precisa de dados. A anotação de dados para essas tarefas envolve desenhar polígonos apertados em torno de cada objeto, o que pode ser demorado. A segmentação de instâncias é uma técnica avançada de detecção de objetos que permite a identificação precisa de objetos individuais em imagens. Ela é usada para segmentar objetos em imagens, como carros, pedestres, árvores, etc.
Para otimizar esse processo, as equipas costumam usar ferramentas como a Ultralytics , que oferece recursos para gerenciamento de conjuntos de dados, autoanotação e treinamento baseado em nuvem. Isso permite que os programadores ajustem os modelos em dados personalizados, como peças industriais específicas ou amostras biológicas, e os implantem de forma eficiente em dispositivos de IA de ponta usando formatos otimizados como ONNX ou TensorRT.