Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Segmentación de imágenes

Explora la segmentación de imágenes en la visión artificial. Descubre cómo Ultralytics proporciona máscaras precisas a nivel de píxel para la segmentación de instancias, semántica y panóptica.

La segmentación de imágenes es una técnica sofisticada de visión artificial (CV) que consiste en dividir una imagen digital en múltiples subgrupos de píxeles, a menudo denominados segmentos o regiones de imagen. A diferencia de la clasificación de imágenes estándar, que asigna una única etiqueta a toda la imagen, la segmentación analiza los datos visuales a un nivel mucho más granular, asignando una etiqueta de clase específica a cada píxel individual. Este proceso crea un mapa preciso a nivel de píxel, lo que permite a los modelos de inteligencia artificial (IA) comprender no solo qué objetos están presentes, sino también dónde se encuentran exactamente y cuáles son sus límites específicos .

La mecánica del análisis a nivel de píxeles

Para lograr esta comprensión de alta fidelidad, los modelos de segmentación suelen aprovechar las arquitecturas de aprendizaje profundo (DL), en particular las redes neuronales convolucionales (CNN). Estas redes actúan como potentes extractores de características, identificando patrones como bordes, texturas y formas complejas . Las arquitecturas de segmentación tradicionales, como la clásica U-Net, suelen emplear una estructura codificador-decodificador. El codificador comprime la imagen de entrada para capturar el contexto semántico, mientras que el decodificador reconstruye los detalles espaciales para generar una máscara de segmentación final.

Los avances modernos han dado lugar a arquitecturas en tiempo real como YOLO26, lanzada en enero de 2026. Estos modelos integran capacidades de segmentación directamente en un proceso integral, lo que permite un procesamiento de alta velocidad en diversos hardware, desde GPU en la nube hasta dispositivos periféricos .

Tipos principales de segmentación

Dependiendo del objetivo específico de un proyecto, los desarrolladores suelen elegir entre tres técnicas principales de segmentación:

  • Segmentación semántica: Este método clasifica los píxeles según su categoría, pero no distingue entre objetos separados de la misma clase. Por ejemplo, en un análisis de imágenes satelitales, todos los píxeles que representan «bosque» se colorearían de verde, tratando todo el bosque como una sola entidad.
  • Segmentación de instancias: Esta técnica identifica y separa objetos individuales distintos de interés. En una escena de calle concurrida, la segmentación de instancias generaría una máscara única para el «Coche A», el «Coche B» y el «Peatón A», lo que permitiría a los sistemas contar y track entidades track . Esta es una característica fundamental de la familia de modelos Ultralytics .
  • Segmentación panóptica: un enfoque híbrido que combina la cobertura de la segmentación semántica con la precisión de la segmentación de instancias. Asigna una etiqueta a cada píxel, distinguiendo los elementos amorfos del fondo (como el cielo y la carretera) e identificando de forma única los objetos contables del primer plano.

Distinción de la detección de objetos

Es fundamental diferenciar la segmentación de la detección de objetos. Mientras que los algoritmos de detección localizan elementos utilizando un cuadro delimitador rectangular, inevitablemente incluyen píxeles de fondo dentro de ese cuadro. La segmentación proporciona una representación más precisa y exacta al trazar el contorno o polígono exacto del objeto. Esta diferencia es vital para aplicaciones como la manipulación robótica, en la que el brazo de un robot debe conocer la geometría precisa de un objeto para manipularlo sin colisiones.

Aplicaciones en el mundo real

La precisión que ofrece la segmentación de imágenes impulsa la innovación en diversos sectores:

  • Diagnóstico médico: En el campo del análisis de imágenes médicas, la segmentación es esencial para delinear las estructuras anatómicas. Los algoritmos analizan las resonancias magnéticas para delinear los tumores o los límites de los órganos, lo que permite a los cirujanos calcular los volúmenes exactos y planificar las intervenciones con una precisión que salva vidas.
  • Conducción autónoma: los vehículos autónomos se basan en la segmentación para circular de forma segura. Mediante el procesamiento de las imágenes de vídeo, el ordenador del vehículo puede diferenciar los carriles transitables de las aceras y los obstáculos. Organismos de normalización como SAE International definen los niveles de autonomía que requieren esta percepción ambiental de alta fidelidad.
  • Agricultura de precisión: En la IA aplicada a la agricultura, la segmentación ayuda a los sistemas robóticos a identificar las malas hierbas entre los cultivos. Mediante la generación de máscaras para hojas de plantas específicas, los pulverizadores automatizados pueden dirigirse únicamente a las especies invasoras, lo que reduce significativamente el uso de herbicidas.

Implementación de la segmentación con YOLO26

Los desarrolladores pueden implementar la segmentación de instancias de manera eficiente utilizando el ultralytics Python . El siguiente ejemplo utiliza la última tecnología Modelo YOLO26, que está optimizado tanto para la velocidad como para la precisión.

from ultralytics import YOLO

# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")

# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")

# Display the image with segmentation overlays
results[0].show()

Para lograr un alto rendimiento en tareas personalizadas, los equipos a menudo necesitan seleccionar datos de entrenamiento de alta calidad . Ultralytics simplifica este proceso al proporcionar herramientas para anotar imágenes con máscaras poligonales, gestionar conjuntos de datos y entrenar modelos en la nube, lo que agiliza todo el ciclo de vida de las operaciones de aprendizaje automático (MLOps) . Bibliotecas como OpenCV también se utilizan con frecuencia junto con estos modelos para el preprocesamiento de imágenes y el posprocesamiento de las máscaras resultantes.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora