Glosario

Redes residuales (ResNet)

Descubre cómo las ResNets revolucionan el aprendizaje profundo resolviendo los gradientes de fuga, permitiendo redes ultradetalladas para el análisis de imágenes, la PNL y mucho más.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Las redes residuales, conocidas comúnmente como ResNet, representan una arquitectura fundamental de aprendizaje profundo (AD) utilizada principalmente en visión por ordenador (VC). Introducida por Kaiming He et al. en su artículo"Deep Residual Learning for Image Recognition"(Aprendizaje Residual Profundo para el Reconocimiento de Imágenes), ResNet aborda el reto de entrenar redes neuronales muy profundas. Antes de ResNet, el simple apilamiento de más capas en una Red Neuronal Convolucional (CNN ) convencional a menudo conducía a un problema llamado degradación, en el que la precisión se saturaba y luego se degradaba rápidamente, no por sobreajuste, sino porque los modelos más profundos se volvían más difíciles de optimizar. La innovación de ResNet permite entrenar con éxito redes de cientos o incluso miles de capas de profundidad.

Cómo funciona ResNet: Conexiones residuales

La idea central de ResNet es la introducción de "conexiones de acceso directo" o "conexiones de salto". Estas conexiones omiten una o más capas y realizan un mapeo de identidad, añadiendo la salida de la capa anterior a la capa que le precede. Esta estructura ayuda a abordar el problema del gradiente de fuga, que a menudo afecta a las redes profundas durante el entrenamiento mediante retropropagación. En lugar de obligar a las capas a aprender directamente un mapeo óptimo, ResNet les permite aprender un mapeo residual relativo a la función de identidad proporcionada por la conexión de salto. Esto facilita que la red aprenda mapeos de identidad si es necesario (lo que significa que un bloque puede omitirse efectivamente si no es beneficioso), simplificando el proceso de optimización para arquitecturas muy profundas y mitigando el problema de degradación observado en las redes profundas simples.

Aplicaciones de ResNet

Las ResNets se han convertido en una arquitectura fundacional de la visión por ordenador y se utilizan ampliamente en numerosas aplicaciones:

  • Clasificación de imágenes: Las ResNets lograron resultados de vanguardia en puntos de referencia de clasificación de imágenes como ImageNet. Su capacidad para aprender eficazmente a partir de redes muy profundas dio lugar a mejoras significativas en la precisión para identificar objetos y escenas. Muchas arquitecturas modernas utilizan ResNet o sus variantes como potente columna vertebral para la extracción de características.
  • Detección y segmentación de objetos: Arquitecturas como Ultralytics YOLO suelen utilizar variantes de ResNet como columna vertebral para extraer características enriquecidas. En la detección de objetos, las ResNets ayudan a localizar y clasificar con precisión los objetos, algo crucial para aplicaciones como el análisis de la disposición de los estantes de las tiendas o la identificación de vehículos en los sistemas de vigilancia del tráfico. En la segmentación de instancias, contribuyen a perfilar con precisión los objetos a nivel de píxel. Explora varias arquitecturas de detección de objetos para ver cómo se compara ResNet.
  • Análisis de imágenes médicas: Las ResNets se utilizan para tareas como la detección de tumores, la clasificación de enfermedades a partir de escáneres y la segmentación de órganos. Por ejemplo, al analizar tomografías computarizadas, un modelo basado en ResNet puede ayudar a delinear los límites del tumor para la planificación de la radioterapia. La profundidad y el poder de representación son esenciales para captar patrones sutiles, mejorando el diagnóstico dentro de las soluciones de IA en sanidad.
  • Reconocimiento facial: Las ResNets se emplean para extraer características sólidas de imágenes faciales, lo que permite una identificación y verificación precisas en sistemas de seguridad y control de acceso.

Ventajas de ResNet

La principal ventaja de ResNet es su capacidad para entrenar redes extremadamente profundas de forma eficaz, superando los problemas de degradación y gradiente evanescente. Esta profundidad permite a las ResNets aprender patrones más complejos y características jerárquicas a partir de los datos de entrenamiento, lo que se traduce en un mejor rendimiento en diversas tareas de CV. Las arquitecturas ResNet también son relativamente sencillas y sirven como componente estándar en muchos modelos modernos de aprendizaje profundo. Su gran rendimiento y adaptabilidad las han convertido en una piedra angular en la investigación y aplicación de la IA. Los usuarios pueden aprovechar los modelos ResNet preentrenados para el aprendizaje por transferencia o el ajuste fino en conjuntos de datos personalizados utilizando plataformas como Ultralytics HUB para acelerar el desarrollo.

Leer todo