La segmentación semántica es una tarea fundamental de la visión por ordenador (VC ) que consiste en asignar una etiqueta de clase específica a cada píxel de una imagen. A diferencia de otras tareas de visión que pueden identificar objetos o clasificar toda la imagen, la segmentación semántica proporciona una comprensión densa, a nivel de píxel, del contenido de la escena. Esto significa que no se limita a detectar que hay un coche, sino que delimita con precisión qué píxeles pertenecen a la categoría de coche, diferenciándolos de los píxeles que pertenecen a la carretera, el cielo o los peatones. Su objetivo es dividir una imagen en regiones significativas correspondientes a distintas categorías de objetos, proporcionando una comprensión global del entorno visual.
Cómo funciona la segmentación semántica
El objetivo principal de la segmentación semántica es clasificar cada píxel de una imagen en un conjunto predefinido de categorías. Por ejemplo, en una imagen que contenga varios coches, peatones y árboles, un modelo de segmentación semántica etiquetaría todos los píxeles de cualquier coche como "coche", todos los píxeles de cualquier peatón como "peatón" y todos los píxeles de cualquier árbol como "árbol". Trata todas las instancias de la misma clase de objeto de forma idéntica.
La segmentación semántica moderna depende en gran medida del aprendizaje profundo, en particular de las redes neuronales convolucionales (CNN). Estos modelos suelen entrenarse mediante técnicas de aprendizaje supervisado, que requieren grandes conjuntos de datos con anotaciones detalladas a nivel de píxel. El proceso consiste en introducir una imagen en la red, que a continuación genera un mapa de segmentación. Este mapa es esencialmente una imagen en la que el valor de cada píxel (a menudo representado por el color) corresponde a su etiqueta de clase prevista, separando visualmente diferentes categorías como "carretera", "edificio", "persona", etc. La calidad del etiquetado de los datos es crucial para entrenar modelos precisos.
Diferencias clave con otras tareas de segmentación
Es importante distinguir la segmentación semántica de las tareas de visión por ordenador relacionadas:
- Clasificación de imágenes: Asigna una única etiqueta a toda la imagen (por ejemplo, "esta imagen contiene un gato"). No localiza ni delimita objetos.
- Detección de objetos: Identifica y localiza objetos utilizando cuadros delimitadores. Te dice dónde están los objetos, pero no proporciona su forma exacta a nivel de píxel.
- Segmentación por instancias: Va un paso más allá de la segmentación semántica, ya que no sólo clasifica cada píxel, sino que también distingue entre diferentes instancias de la misma clase de objeto. Por ejemplo, asignaría un ID y una máscara únicos a cada coche individual de la escena. Para más detalles, consulta esta guía que compara la segmentación por instancias y la segmentación semántica.
- Segmentación panóptica: Combina la segmentación semántica y la de instancia, proporcionando tanto una etiqueta de categoría para cada píxel como IDs de instancia únicos para los objetos contables ("cosas"), a la vez que agrupa las regiones de fondo incontables ("cosas") como el cielo o la carretera.
Aplicaciones en el mundo real
La comprensión detallada de la escena que proporciona la segmentación semántica es crucial para muchas aplicaciones del mundo real:
- Conducción autónoma: Los coches de conducción autónoma utilizan la segmentación semántica para comprender con precisión su entorno. Al clasificar los píxeles pertenecientes a carreteras, carriles, aceras, peatones, otros vehículos y obstáculos, el sistema de conducción autónoma puede tomar decisiones de navegación más seguras. Se trata de un componente clave en las soluciones de IA para automoción.
- Análisis de imágenes médicas: En sanidad, la segmentación semántica ayuda a analizar exploraciones médicas como resonancias magnéticas o tomografías computarizadas. Puede delinear automáticamente órganos, identificar y medir tumores o lesiones, y resaltar anomalías con precisión a nivel de píxel. Por ejemplo, los modelosYOLO Ultralytics pueden utilizarse para la detección de tumores, ayudando a los radiólogos en el diagnóstico y la planificación de tratamientos basados en técnicas detalladas de imagen médica.
- Análisis de Imágenes de Satélite: Se utiliza para la clasificación de la cubierta terrestre, el seguimiento de la deforestación, la planificación urbana y las aplicaciones agrícolas. Puede diferenciar entre bosques, masas de agua, campos y zonas urbanizadas a partir de fotos de satélite, como se muestra en los ejemplos del Observatorio de la Tierra de la NASA. Más información sobre el uso de la visión por ordenador para analizar imágenes de satélite.
- Robótica: Permite a los robots percibir su entorno e interactuar con él de forma más eficaz al comprender la disposición y los objetos de una escena. Más información sobre la integración de la visión por ordenador en la robótica.
Modelos y herramientas
La segmentación semántica emplea a menudo modelos de aprendizaje profundo, en particular arquitecturas derivadas de las CNN.