Glosario

Segmentación semántica

Descubre el poder de la segmentación semántica: clasifica cada píxel de las imágenes para comprender la escena con precisión. Explora ahora las aplicaciones y herramientas

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La segmentación semántica es una tarea fundamental de la visión por ordenador que consiste en asignar una etiqueta de clase específica a cada píxel de una imagen. A diferencia de otras tareas de visión que pueden identificar objetos o clasificar toda la imagen, la segmentación semántica proporciona una comprensión densa, a nivel de píxel, del contenido de la escena. Esto significa que no se limita a detectar que hay un coche, sino que delimita con precisión qué píxeles pertenecen a la categoría de coche, diferenciándolos de los píxeles que pertenecen a la carretera, el cielo o los peatones.

¿Qué es la segmentación semántica?

El objetivo principal de la segmentación semántica es dividir una imagen en regiones significativas correspondientes a distintas categorías de objetos. Por ejemplo, en una imagen que contenga varios coches, peatones y árboles, un modelo de segmentación semántica etiquetaría todos los píxeles de cualquier coche como "coche", todos los píxeles de cualquier peatón como "peatón" y todos los píxeles de cualquier árbol como "árbol". Trata todas las instancias de la misma clase de objeto de forma idéntica. Esto contrasta con la clasificación de imágenes, que asigna una única etiqueta a toda la imagen, y con la detección de objetos, que dibuja cuadros delimitadores alrededor de los objetos detectados pero no perfila su forma exacta.

Los modelos de segmentación semántica suelen entrenarse mediante técnicas de aprendizaje supervisado, que requieren conjuntos de datos con anotaciones detalladas a nivel de píxel. El resultado suele ser un mapa de segmentación, que es una imagen en la que el valor (o color) de cada píxel corresponde a su etiqueta de clase prevista.

Diferencias clave con otras tareas de segmentación

Es importante distinguir la segmentación semántica de las tareas relacionadas:

  • Segmentación de instancias: Mientras que la segmentación semántica etiqueta igual a todos los píxeles que pertenecen a la clase "coche", la segmentación por instancias va un paso más allá. Identifica y segmenta cada instancia individual de un objeto por separado. Así, tres coches diferentes de una imagen recibirían cada uno una máscara de segmentación única, aunque todos pertenezcan a la clase "coche". Puedes aprender a utilizar Ultralytics YOLO para la segmentación de instancias.
  • Segmentación panóptica: Esta tarea combina la segmentación semántica y la segmentación por instancias. Asigna una etiqueta de clase a cada píxel (como la segmentación semántica) y también identifica unívocamente cada instancia de objeto (como la segmentación por instancias), proporcionando una comprensión unificada de la escena.

Aplicaciones de la segmentación semántica

La comprensión detallada de la escena que proporciona la segmentación semántica es crucial para muchas aplicaciones del mundo real:

  1. Conducción autónoma: Los coches de conducción autónoma dependen en gran medida de la segmentación semántica para comprender su entorno. Al clasificar los píxeles en categorías como "carretera", "acera", "peatón", "vehículo" y "obstáculo", el sistema de conducción autónoma puede tomar decisiones informadas sobre navegación y seguridad.
  2. Análisis de imágenes médicas: En sanidad, la segmentación semántica ayuda a analizar exploraciones médicas como resonancias magnéticas o tomografías computarizadas. Puede delinear con precisión órganos, tejidos o anomalías como tumores, ayudando a los médicos en el diagnóstico, la planificación del tratamiento y el seguimiento de la progresión de la enfermedad. Por ejemplo, los modelosYOLO Ultralytics pueden utilizarse para la detección de tumores.
  3. Análisis de Imágenes de Satélite: Se utiliza para clasificar los tipos de cobertura del suelo (por ejemplo, bosques, agua, zonas urbanas), controlar la deforestación, cartografiar la expansión urbana o evaluar la salud de los cultivos en la agricultura de precisión. La IA de visión ofrece muchas ventajas para la agricultura.
  4. Robótica: Permite a los robots percibir su entorno con mayor detalle, necesario para tareas como la manipulación de objetos y la navegación en entornos complejos. Más información sobre la integración de la visión por ordenador en la robótica.

Modelos y herramientas

La segmentación semántica suele emplear modelos de aprendizaje profundo, en particular Redes Neuronales Convolucionales (CNN). Arquitecturas como las Redes Completamente Convolucionales (FCN) y la Red-U son opciones populares. Modelos modernos como Ultralytics YOLOv8 también ofrecen potentes capacidades para tareas de segmentación. Herramientas como Ultralytics HUB ofrecen plataformas para entrenar, gestionar conjuntos de datos como COCO y desplegar modelos de segmentación de forma eficiente.

Leer todo