Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Segmentación de Instancias

Descubra cómo la segmentación de instancias permite la detección de objetos a nivel de píxel. Descubra cómo utilizar Ultralytics para la generación de máscaras en tiempo real y a alta velocidad, y mucho más.

La segmentación de instancias es una técnica sofisticada de visión artificial (CV) que identifica y delinea cada objeto de interés dentro de una imagen a nivel de píxeles. Mientras que la detección de objetos estándar localiza los elementos utilizando cuadros delimitadores rectangulares , la segmentación de instancias profundiza en el análisis generando una máscara precisa para cada entidad detectada. Esta capacidad permite a los modelos de inteligencia artificial (IA) distinguir entre objetos individuales de la misma clase, como separar a dos personas superpuestas, lo que proporciona una comprensión más rica y detallada de la escena visual en comparación con métodos de clasificación más simples.

Tipos de segmentación distintivos

Para comprender plenamente la utilidad de la segmentación de instancias, resulta útil diferenciarla de otras tareas relacionadas con el procesamiento de imágenes . Cada método ofrece un nivel diferente de granularidad en función de los requisitos de la aplicación.

  • Segmentación semántica: Este enfoque clasifica cada píxel de una imagen en una categoría (por ejemplo, «carretera», «cielo», «coche»). Sin embargo, no distingue entre objetos separados de la misma categoría. Si hay tres coches aparcados uno al lado del otro, la segmentación semántica los ve como una única región «coche».
  • Segmentación de instancias: este método trata cada objeto como una entidad única. Detecta instancias individuales y asigna una etiqueta única a los píxeles de cada una de ellas . En el ejemplo de los coches aparcados, la segmentación de instancias crearía tres máscaras distintas, identificando el «Coche A», el «Coche B» y el «Coche C» por separado.
  • Segmentación panóptica: un enfoque híbrido que combina el etiquetado de fondo de la segmentación semántica con la identificación de objetos contables de la segmentación de instancias.

La mecánica del análisis a nivel de píxeles

Los modelos modernos de segmentación de instancias suelen basarse en arquitecturas avanzadas de aprendizaje profundo (DL), en particular las redes neuronales convolucionales (CNN). Estas redes extraen características de una imagen para predecir tanto la clase de un objeto como su contorno espacial. Históricamente, las arquitecturas de dos etapas, como Mask R-CNN, eran el estándar, proponiendo primero las regiones de interés y luego refinándolas en máscaras.

Sin embargo, los avances recientes han dado lugar a detectores de una sola etapa como YOLO26, que realizan la detección y la segmentación simultáneamente. Este enfoque «de extremo a extremo» mejora significativamente las velocidades de inferencia en tiempo real, lo que permite aplicar una segmentación de alta precisión a las transmisiones de vídeo en directo en hardware de consumo.

Aplicaciones en el mundo real

Los límites precisos que proporciona la segmentación por instancias son fundamentales para las industrias en las que es necesario conocer la forma y la posición exactas de un objeto para la toma de decisiones.

  • IA en la asistencia sanitaria: En el diagnóstico médico , es vital identificar el tamaño y la forma exactos de los tumores o lesiones. La segmentación de instancias permite a los modelos delinear anomalías en resonancias magnéticas con gran precisión, lo que ayuda a los radiólogos a planificar el tratamiento y supervisar la progresión de la enfermedad.
  • Vehículos autónomos: Los coches autónomos se basan en la segmentación para navegar por entornos complejos. Utilizando conjuntos de datos como Cityscapes, los vehículos pueden identificar superficies transitables, reconocer las marcas de los carriles y separar a los peatones individuales en los cruces concurridos para garantizar la seguridad.
  • IA en la agricultura: La agricultura de precisión utiliza la segmentación para supervisar la salud de los cultivos. Los robots equipados con sistemas de visión pueden identificar frutos individuales para la recolección automatizada o detect malas hierbas detect para la aplicación selectiva de herbicidas, lo que reduce el uso de productos químicos y optimiza el rendimiento.

Implementación de la segmentación con Python

Los desarrolladores pueden implementar fácilmente la segmentación de instancias utilizando la función ultralytics biblioteca. El siguiente ejemplo muestra cómo cargar un modelo preentrenado. YOLO26 modelo y generar máscaras de segmentación para una imagen.

from ultralytics import YOLO

# Load a pre-trained YOLO26 instance segmentation model
# The 'n' suffix denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
# This predicts classes, bounding boxes, and masks
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
# Displays the image with overlaid segmentation masks
results[0].show()

Desafíos y formación de modelos

Aunque potente, la segmentación de instancias requiere un gran esfuerzo computacional en comparación con la simple detección de cuadros delimitadores. La generación de máscaras con píxeles perfectos requiere importantes GPU y una anotación precisa de los datos. La anotación de datos para estas tareas implica dibujar polígonos ajustados alrededor de cada objeto, lo que puede llevar mucho tiempo.

Para agilizar este proceso, los equipos suelen utilizar herramientas como la Ultralytics , que ofrece funciones para la gestión de conjuntos de datos, la anotación automática y la formación basada en la nube. Esto permite a los desarrolladores ajustar los modelos con datos personalizados, como piezas industriales específicas o muestras biológicas, e implementarlos de manera eficiente en dispositivos de IA de vanguardia utilizando formatos optimizados como ONNX o TensorRT.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora