Glosario

Segmentación semántica

Descubre el poder de la segmentación semántica: clasifica cada píxel de las imágenes para comprender la escena con precisión. Explora ahora las aplicaciones y herramientas

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La segmentación semántica es una tarea fundamental de la visión por ordenador (VC ) que consiste en asignar una etiqueta de clase específica a cada píxel de una imagen. A diferencia de otras tareas de visión que pueden identificar objetos o clasificar toda la imagen, la segmentación semántica proporciona una comprensión densa, a nivel de píxel, del contenido de la escena. Esto significa que no se limita a detectar que hay un coche, sino que delimita con precisión qué píxeles pertenecen a la categoría de coche, diferenciándolos de los píxeles que pertenecen a la carretera, el cielo o los peatones. Su objetivo es dividir una imagen en regiones significativas correspondientes a distintas categorías de objetos, proporcionando una comprensión global del entorno visual.

Cómo funciona la segmentación semántica

El objetivo principal de la segmentación semántica es clasificar cada píxel de una imagen en un conjunto predefinido de categorías. Por ejemplo, en una imagen que contenga varios coches, peatones y árboles, un modelo de segmentación semántica etiquetaría todos los píxeles de cualquier coche como "coche", todos los píxeles de cualquier peatón como "peatón" y todos los píxeles de cualquier árbol como "árbol". Trata todas las instancias de la misma clase de objeto de forma idéntica.

La segmentación semántica moderna depende en gran medida del aprendizaje profundo, en particular de las redes neuronales convolucionales (CNN). Estos modelos suelen entrenarse mediante técnicas de aprendizaje supervisado, que requieren grandes conjuntos de datos con anotaciones detalladas a nivel de píxel. El proceso consiste en introducir una imagen en la red, que a continuación genera un mapa de segmentación. Este mapa es esencialmente una imagen en la que el valor de cada píxel (a menudo representado por el color) corresponde a su etiqueta de clase prevista, separando visualmente diferentes categorías como "carretera", "edificio", "persona", etc. La calidad del etiquetado de los datos es crucial para entrenar modelos precisos.

Diferencias clave con otras tareas de segmentación

Es importante distinguir la segmentación semántica de las tareas de visión por ordenador relacionadas:

  • Clasificación de imágenes: Asigna una única etiqueta a toda la imagen (por ejemplo, "esta imagen contiene un gato"). No localiza ni delimita objetos.
  • Detección de objetos: Identifica y localiza objetos utilizando cuadros delimitadores. Te dice dónde están los objetos, pero no proporciona su forma exacta a nivel de píxel.
  • Segmentación por instancias: Va un paso más allá de la segmentación semántica, ya que no sólo clasifica cada píxel, sino que también distingue entre diferentes instancias de la misma clase de objeto. Por ejemplo, asignaría un ID y una máscara únicos a cada coche individual de la escena. Para más detalles, consulta esta guía que compara la segmentación por instancias y la segmentación semántica.
  • Segmentación panóptica: Combina la segmentación semántica y la de instancia, proporcionando tanto una etiqueta de categoría para cada píxel como IDs de instancia únicos para los objetos contables ("cosas"), a la vez que agrupa las regiones de fondo incontables ("cosas") como el cielo o la carretera.

Aplicaciones en el mundo real

La comprensión detallada de la escena que proporciona la segmentación semántica es crucial para muchas aplicaciones del mundo real:

Modelos y herramientas

La segmentación semántica emplea a menudo modelos de aprendizaje profundo, en particular arquitecturas derivadas de las CNN.

Leer todo