Glosario

U-Net

Descubre U-Net, la potente arquitectura CNN para la segmentación semántica. Aprende sus aplicaciones en imágenes médicas, por satélite y autónomas.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

U-Net es una arquitectura especializada de Red Neuronal Convolucional (CNN ) desarrollada originalmente para tareas de segmentación de imágenes biomédicas. Su característica estructura en forma de U permite la localización y segmentación precisas de objetos dentro de imágenes, incluso con datos de entrenamiento limitados. Presentada por Olaf Ronneberger, Philipp Fischer y Thomas Brox en 2015, la U-Net se hizo rápidamente influyente más allá de su dominio inicial debido a su eficacia en diversas aplicaciones de visión por ordenador (VC ) que requieren una clasificación a nivel de píxel.

Arquitectura del núcleo

La arquitectura de la Red-U consta de dos vías principales: una vía de contracción (codificador) y una vía de expansión (decodificador), que forman su característica forma de "U".

  1. Ruta de contratación (codificador): Sigue la estructura típica de una CNN. Implica la aplicación repetida de convoluciones, seguidas de funciones de activación ReLU (Unidad Lineal Rectificada) y operaciones de agrupación máxima. Esta ruta capta el contexto de la imagen de entrada reduciendo progresivamente la resolución espacial al tiempo que aumenta el número de mapas de características, codificando eficazmente la imagen en una representación compacta. Este concepto es fundamental en muchas arquitecturas de codificador-decodificador.
  2. Trayectoria Expansiva (Decodificador): Esta ruta expande simétricamente los mapas de características hasta la resolución de la imagen original. Consiste en convoluciones ascendentes (o convoluciones transpuestas) que aumentan la resolución, seguidas de convoluciones estándar. Y lo que es más importante, cada paso de la ruta expansiva concatena el mapa de características convolucionado hacia arriba con el correspondiente mapa de características de alta resolución de la ruta de contracción mediante conexiones de salto.
  3. Saltar Conexiones: Son el sello distintivo de U-Net. Vinculan directamente los mapas de características del codificador con las capas correspondientes del descodificador. Esto permite al descodificador reutilizar la información espacial de alta resolución aprendida por el codificador, que es vital para lograr una localización precisa en el mapa de segmentación final. Una explicación de las conexiones de salto puede proporcionar más contexto.

Principales características y ventajas

El diseño de U-Net ofrece varias ventajas, sobre todo para las tareas de segmentación:

  • Localización precisa: Las conexiones de salto permiten a la red combinar información contextual profunda (de las capas inferiores del codificador) con detalles espaciales de grano fino (de las capas anteriores del codificador).
  • Eficacia con datos limitados: Funciona bien incluso con conjuntos de datos pequeños, un escenario habitual en el análisis de imágenes médicas, donde los datos anotados pueden ser escasos.
  • Entrenamiento de extremo a extremo: Toda la red se puede entrenar desde la imagen de entrada hasta el mapa de segmentación de salida directamente.

Aplicaciones en el mundo real

Aunque inicialmente se diseñó para la obtención de imágenes biomédicas, la arquitectura de U-Net es versátil:

Distinguir la Red-U de conceptos similares

U-Net se centra principalmente en la segmentación semántica, asignando una etiqueta de clase a cada píxel. Esto difiere de la segmentación de instancias, que distingue instancias individuales de objetos que pertenecen a la misma clase. Aunque U-Net puede adaptarse para la segmentación de instancias, los modelos como Mask R-CNN suelen ser más adecuados directamente para esa tarea. Los modelos modernos como Ultralytics YOLOv8 también ofrecen potentes capacidades de segmentación, a menudo optimizadas para la velocidad y el rendimiento en tiempo real, utilizando potencialmente diferentes enfoques arquitectónicos influidos por los avances en el aprendizaje profundo.

Formación y herramientas

Entrenar una U-Net requiere datos anotados a nivel de píxel, en los que cada píxel de las imágenes de entrenamiento se etiqueta con su clase correspondiente. Este proceso, conocido como anotación de datos, suele requerir mucho trabajo. Los modelos U-Net suelen implementarse y entrenarse utilizando marcos de aprendizaje profundo populares como PyTorch y TensorFlow.

Leer todo