Segmentación semántica

Descubra el poder de la segmentación semántica: clasifique cada píxel de las imágenes para comprender con precisión la escena. Explore ahora las aplicaciones y herramientas.

La segmentación semántica es una tarea fundamental de la visión por ordenador que consiste en asignar una etiqueta de clase específica a cada píxel de una imagen. A diferencia de otros métodos que pueden identificar objetos con recuadros o asignar una única etiqueta a toda la imagen, la segmentación semántica crea un mapa denso y perfecto de píxeles de las distintas categorías semánticas presentes. Esto proporciona una comprensión rica y detallada del contenido de la imagen, esbozando la forma y ubicación exactas de cada categoría, como "carretera", "cielo", "edificio" o "persona". Es una técnica fundamental en escenas en las que comprender el contexto y la disposición es tan importante como identificar objetos individuales.

Modelos y herramientas

La segmentación semántica emplea a menudo modelos de aprendizaje profundo, en particular arquitecturas derivadas de redes neuronales convolucionales (CNN).

Arquitecturas: Entre las primeras arquitecturas populares se encuentran las redes totalmente convolucionales (FCN), que sustituyeron las capas totalmente conectadas de las redes de clasificación por capas convolucionales para producir mapas espaciales, y la red U, que utiliza una estructura de codificador-decodificador con conexiones de salto, lo que la hace especialmente eficaz para el análisis de imágenes biomédicas. Otras arquitecturas influyentes son DeepLab, que utiliza convoluciones atróficas (o dilatadas) para controlar la resolución de los mapas de características.
Modelos modernos: Los modelos de última generación, como Ultralytics YOLO11, también ofrecen potentes capacidades para diversas tareas de segmentación, equilibrando velocidad y precisión para aplicaciones que requieren inferencia en tiempo real.
Plataformas de formación: Herramientas como Ultralytics HUB ofrecen plataformas para gestionar conjuntos de datos como el muy utilizado COCO Segmentation dataset, entrenar modelos personalizados y explorar opciones de despliegue de modelos.
Marcos de trabajo: El desarrollo suele utilizar marcos populares como PyTorch y TensorFlow. Técnicas como el aumento de datos se utilizan habitualmente para mejorar la solidez y la generalización de los modelos. Bibliotecas de código abierto como OpenCV y scikit-image también proporcionan herramientas para el procesamiento y análisis de imágenes que complementan los flujos de trabajo de segmentación.

Aplicaciones reales

La comprensión detallada de la escena que proporciona la segmentación semántica es crucial en muchos campos:

Vehículos autónomos: Para que un vehículo autónomo circule con seguridad, debe conocer perfectamente su entorno. La segmentación semántica se utiliza para identificar zonas transitables (carreteras), zonas no transitables (aceras, edificios) y la ubicación de peatones, ciclistas y otros vehículos con una precisión de píxeles. Esto permite planificar rutas y tomar decisiones más seguras. Más información sobre el papel de la IA en los vehículos autónomos.
Análisis de imágenes médicas: En medicina, la precisión es primordial. La segmentación semántica ayuda a delinear automáticamente órganos, tumores, lesiones y otras estructuras anatómicas en exploraciones como resonancias magnéticas y tomografías computarizadas. Esto ayuda a los radiólogos en el diagnóstico, la planificación del tratamiento y el seguimiento de la evolución de la enfermedad. Obtenga más información sobre cómo se aplica la IA a la imagen médica.
Análisis de imágenes de satélite: En las aplicaciones geoespaciales, la segmentación semántica se utiliza para clasificar la cubierta terrestre a partir de imágenes de satélite. Puede utilizarse para la planificación urbana (identificación de edificios, carreteras y zonas verdes), la vigilancia medioambiental (seguimiento de la deforestación o las masas de agua) y la agricultura de precisión.
Robótica: Los robots utilizan la segmentación semántica para comprender su entorno operativo, lo que les permite diferenciar entre suelos, paredes, objetos con los que interactuar y obstáculos que evitar. Esto es vital para las tareas de navegación y manipulación en entornos complejos como almacenes u hogares. Más información sobre la integración de la visión por ordenador en la robótica.

Principales diferencias con otras tareas

Es importante diferenciar la segmentación semántica de las tareas de visión por ordenador relacionadas:

Segmentación de instancias: Es la tarea más relacionada. Aunque ambas realizan una clasificación a nivel de píxel, la segmentación de instancias va un paso más allá al distinguir entre instancias individuales de la misma clase de objeto. Por ejemplo, en una imagen con tres coches, la segmentación semántica etiquetaría todos los píxeles de coche simplemente como "coche". En cambio, la segmentación por instancias identificaría "coche 1", "coche 2" y "coche 3" como objetos separados.
Detección de objetos: Esta tarea identifica la presencia y ubicación de objetos dentro de una imagen dibujando un cuadro delimitador alrededor de cada uno y asignándole una etiqueta de clase. No proporciona información sobre la forma del objeto ni sobre qué píxeles pertenecen a él.
Segmentación panóptica: Esta tarea puede considerarse una unificación de la segmentación semántica y la segmentación por instancias. Su objetivo es proporcionar una comprensión exhaustiva de la escena asignando una etiqueta de clase a cada píxel (como la segmentación semántica) y, al mismo tiempo, identificando de forma única cada instancia de objeto (como la segmentación por instancias).

Segmentación semántica

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

Modelos y herramientas

Aplicaciones reales

Principales diferencias con otras tareas

Leer más en esta categoría

Comprender la fabricación aditiva: Tecnología y casos de uso

Supervisión de las operaciones aeroportuarias en tierra con Ultralytics YOLO11

Evolución y futuro de la robótica en la fabricación

Únase a la comunidad Ultralytics