Descubre el poder de la segmentación semántica: clasifica cada píxel de las imágenes para comprender la escena con precisión. Explora ahora las aplicaciones y herramientas
La segmentación semántica es una tarea fundamental de la visión por ordenador que consiste en asignar una etiqueta de clase específica a cada píxel de una imagen. A diferencia de otras tareas de visión que pueden identificar objetos o clasificar toda la imagen, la segmentación semántica proporciona una comprensión densa, a nivel de píxel, del contenido de la escena. Esto significa que no se limita a detectar que hay un coche, sino que delimita con precisión qué píxeles pertenecen a la categoría de coche, diferenciándolos de los píxeles que pertenecen a la carretera, el cielo o los peatones.
El objetivo principal de la segmentación semántica es dividir una imagen en regiones significativas correspondientes a distintas categorías de objetos. Por ejemplo, en una imagen que contenga varios coches, peatones y árboles, un modelo de segmentación semántica etiquetaría todos los píxeles de cualquier coche como "coche", todos los píxeles de cualquier peatón como "peatón" y todos los píxeles de cualquier árbol como "árbol". Trata todas las instancias de la misma clase de objeto de forma idéntica. Esto contrasta con la clasificación de imágenes, que asigna una única etiqueta a toda la imagen, y con la detección de objetos, que dibuja cuadros delimitadores alrededor de los objetos detectados pero no perfila su forma exacta.
Los modelos de segmentación semántica suelen entrenarse mediante técnicas de aprendizaje supervisado, que requieren conjuntos de datos con anotaciones detalladas a nivel de píxel. El resultado suele ser un mapa de segmentación, que es una imagen en la que el valor (o color) de cada píxel corresponde a su etiqueta de clase prevista.
Es importante distinguir la segmentación semántica de las tareas relacionadas:
La comprensión detallada de la escena que proporciona la segmentación semántica es crucial para muchas aplicaciones del mundo real:
La segmentación semántica suele emplear modelos de aprendizaje profundo, en particular Redes Neuronales Convolucionales (CNN). Arquitecturas como las Redes Completamente Convolucionales (FCN) y la Red-U son opciones populares. Modelos modernos como Ultralytics YOLOv8 también ofrecen potentes capacidades para tareas de segmentación. Herramientas como Ultralytics HUB ofrecen plataformas para entrenar, gestionar conjuntos de datos como COCO y desplegar modelos de segmentación de forma eficiente.