Descubre cómo las ResNets revolucionan el aprendizaje profundo resolviendo los gradientes de fuga, permitiendo redes ultradetalladas para el análisis de imágenes, la PNL y mucho más.
Las redes residuales, conocidas comúnmente como ResNet, representan una arquitectura fundamental de aprendizaje profundo (AD) utilizada principalmente en visión por ordenador (VC). Introducida por Kaiming He et al. en su artículo"Deep Residual Learning for Image Recognition"(Aprendizaje Residual Profundo para el Reconocimiento de Imágenes), ResNet aborda el reto de entrenar redes neuronales muy profundas. Antes de ResNet, el simple apilamiento de más capas en una Red Neuronal Convolucional (CNN ) convencional a menudo conducía a un problema llamado degradación, en el que la precisión se saturaba y luego se degradaba rápidamente, no por sobreajuste, sino porque los modelos más profundos se volvían más difíciles de optimizar. La innovación de ResNet permite entrenar con éxito redes de cientos o incluso miles de capas de profundidad.
La idea central de ResNet es la introducción de "conexiones de acceso directo" o "conexiones de salto". Estas conexiones omiten una o más capas y realizan un mapeo de identidad, añadiendo la salida de la capa anterior a la capa que le precede. Esta estructura ayuda a abordar el problema del gradiente de fuga, que a menudo afecta a las redes profundas durante el entrenamiento mediante retropropagación. En lugar de obligar a las capas a aprender directamente un mapeo óptimo, ResNet les permite aprender un mapeo residual relativo a la función de identidad proporcionada por la conexión de salto. Esto facilita que la red aprenda mapeos de identidad si es necesario (lo que significa que un bloque puede omitirse efectivamente si no es beneficioso), simplificando el proceso de optimización para arquitecturas muy profundas y mitigando el problema de degradación observado en las redes profundas simples.
Las ResNets se han convertido en una arquitectura fundacional de la visión por ordenador y se utilizan ampliamente en numerosas aplicaciones:
La principal ventaja de ResNet es su capacidad para entrenar redes extremadamente profundas de forma eficaz, superando los problemas de degradación y gradiente evanescente. Esta profundidad permite a las ResNets aprender patrones más complejos y características jerárquicas a partir de los datos de entrenamiento, lo que se traduce en un mejor rendimiento en diversas tareas de CV. Las arquitecturas ResNet también son relativamente sencillas y sirven como componente estándar en muchos modelos modernos de aprendizaje profundo. Su gran rendimiento y adaptabilidad las han convertido en una piedra angular en la investigación y aplicación de la IA. Los usuarios pueden aprovechar los modelos ResNet preentrenados para el aprendizaje por transferencia o el ajuste fino en conjuntos de datos personalizados utilizando plataformas como Ultralytics HUB para acelerar el desarrollo.