Glosario

Segmentación semántica

Descubre el poder de la segmentación semántica en la visión por ordenador, desde el análisis de imágenes a nivel de píxel hasta las aplicaciones de IA en el mundo real, como la asistencia sanitaria y la autonomía.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La segmentación semántica es una técnica fundamental de la visión por ordenador que consiste en clasificar cada píxel de una imagen en una clase específica. A diferencia de la detección de objetos, que identifica y localiza los objetos con cuadros delimitadores, la segmentación semántica proporciona una comprensión detallada, a nivel de píxel, del contenido de la imagen. Esta técnica es esencial para las aplicaciones que requieren una comprensión precisa de la escena, en las que es crucial conocer los límites exactos y las categorías de todos los objetos de una imagen.

Conceptos básicos de la segmentación semántica

La segmentación semántica clasifica cada píxel de una imagen, asignándolo a una clase o categoría predefinida. Por ejemplo, en una imagen de una escena callejera, los píxeles que representan coches, peatones, carreteras y edificios se asignarían cada uno a su clase respectiva. Este proceso da como resultado un mapa de segmentación en el que el color de cada píxel corresponde a una clase específica, proporcionando una comprensión detallada y completa de la escena. Este nivel de detalle es esencial para aplicaciones en las que son necesarios límites precisos de los objetos y relaciones espaciales.

Diferencias clave con otras técnicas de segmentación

La segmentación semántica suele compararse con otras técnicas de segmentación, como la segmentación por instancias y la segmentación panóptica. Mientras que la segmentación semántica clasifica cada píxel en una categoría sin diferenciar entre instancias individuales de la misma clase, la segmentación por instancias va un paso más allá al distinguir cada instancia de un objeto. Por ejemplo, la segmentación por instancias identificaría cada coche de una imagen como una entidad independiente, mientras que la segmentación semántica se limitaría a etiquetar todos los píxeles de coche como pertenecientes a la clase "coche". La segmentación panóptica combina ambos enfoques, proporcionando una comprensión global de la escena al clasificar cada píxel y diferenciar las instancias individuales de los objetos.

Aplicaciones en el mundo real

La segmentación semántica tiene una amplia gama de aplicaciones en diversas industrias, mejorando las capacidades de los sistemas de IA en escenarios del mundo real. He aquí dos ejemplos concretos:

Vehículos autónomos

En los coches autoconducidos, la segmentación semántica se utiliza para interpretar el entorno con precisión. Al clasificar cada píxel de las imágenes captadas por las cámaras del vehículo, el sistema puede identificar carreteras, aceras, otros vehículos, peatones y señales de tráfico. Este conocimiento detallado de la escena permite al vehículo navegar con seguridad y tomar decisiones informadas en tiempo real. Por ejemplo, el sistema puede distinguir entre una carretera y una acera, asegurándose de que el coche se mantiene en la trayectoria correcta.

Imagen médica

La segmentación semántica desempeña un papel crucial en la imagen médica, ya que ayuda al diagnóstico preciso y a la planificación del tratamiento. Por ejemplo, en el análisis de resonancias magnéticas o tomografías computarizadas, la segmentación semántica puede utilizarse para identificar y delinear distintos tejidos, órganos y anomalías como tumores. Al clasificar cada píxel en categorías como tejido sano, tumor u órganos específicos, los médicos pueden obtener información precisa sobre el tamaño, la forma y la ubicación de las distintas estructuras. Esta segmentación detallada ayuda en el diagnóstico preciso, la planificación quirúrgica y el seguimiento de la progresión de las enfermedades.

Aspectos técnicos y conceptos relacionados

La segmentación semántica se basa en gran medida en modelos de aprendizaje profundo, en particular en redes neuronales convolucionales (CNN). Estos modelos se entrenan en grandes conjuntos de datos de imágenes en los que cada píxel se etiqueta con su clase correspondiente. El proceso de entrenamiento consiste en ajustar los parámetros del modelo para minimizar la diferencia entre el mapa de segmentación predicho y la verdad sobre el terreno.

Redes totalmente convolucionales (FCN): Las FCN son una arquitectura popular para la segmentación semántica. Amplían las CNN tradicionales sustituyendo las capas totalmente conectadas por capas convolucionales, lo que permite a la red producir un mapa de segmentación del mismo tamaño que la imagen de entrada.

Red-U: Desarrollada originalmente para la segmentación de imágenes biomédicas, U-Net es otra arquitectura muy utilizada. Presenta una estructura codificador-decodificador con conexiones de salto que ayudan a preservar los detalles finos en el mapa de segmentación. U-Net ha demostrado su eficacia en diversas aplicaciones gracias a su capacidad para captar tanto el contexto como la localización precisa.

DeepLab: Los modelos de DeepLab utilizan convoluciones atrous y campos aleatorios condicionales (CRF) para conseguir resultados de segmentación precisos. Las convoluciones atrous permiten ampliar el campo de visión sin aumentar el número de parámetros, mientras que los CRF refinan los límites de la segmentación. Los modelos de DeepLab son conocidos por su gran precisión y se utilizan en diversas aplicaciones que requieren una comprensión detallada de la escena.

Herramientas y marcos

Varias herramientas y marcos apoyan el desarrollo y la implantación de modelos de segmentación semántica. TensorFlow y PyTorch son marcos populares de aprendizaje profundo que proporcionan los bloques de construcción necesarios para implementar modelos de segmentación. Además, bibliotecas como OpenCV ofrecen funcionalidades para el procesamiento de imágenes y pueden utilizarse junto con marcos de aprendizaje profundo.

Ultralytics YOLO (You Only Look Once), conocidos por su capacidad de detección de objetos en tiempo real, también admiten tareas de segmentación semántica. El HUB de Ultralytics simplifica aún más el proceso proporcionando herramientas para entrenar y desplegar estos modelos sin necesidad de amplios conocimientos de codificación. Esto hace que los usuarios puedan aprovechar las técnicas avanzadas de segmentación en diversos sectores, mejorando la eficacia operativa y los procesos de toma de decisiones.

Leer todo