Descubre cómo las ResNets revolucionan el aprendizaje profundo resolviendo los gradientes de fuga, permitiendo redes ultradetalladas para el análisis de imágenes, la PNL y mucho más.
Las Redes Residuales, comúnmente conocidas como ResNet, representan una innovadora arquitectura de redes neuronales convolucionales (CNN ) desarrollada por Kaiming He y sus colegas de Microsoft Research. Presentada en su artículo de 2015"Deep Residual Learning for Image Recognition" (Aprendizaje Residual Profundo para el Reconocimiento de Imágenes), ResNet aborda un importante reto del aprendizaje profundo (AD): el problema de la degradación. Este problema se produce cuando añadir más capas a una red muy profunda conduce a un mayor error de entrenamiento, en contra de la expectativa de que los modelos más profundos deberían funcionar mejor. La innovación de ResNet permitió entrenar con éxito redes sustancialmente más profundas de lo que antes era factible, avanzando significativamente el estado del arte en diversas tareas de visión por ordenador (VC).
La idea central de ResNet es la introducción de "conexiones de salto" o "conexiones de atajo". En las redes profundas tradicionales, cada capa alimenta secuencialmente a la siguiente. ResNet modifica esto permitiendo que la entrada de un bloque de capas se añada a la salida de ese bloque. Esto crea un "bloque residual" en el que las capas aprenden un mapeo residual (la diferencia entre la entrada y la salida deseada) en lugar de intentar aprender directamente todo el mapeo subyacente. Si la función óptima se acerca más a un mapeo de identidad (en el que la salida debe ser la misma que la entrada), es más fácil que la red aprenda a hacer que el residual sea cero (llevando los pesos de las capas apiladas hacia cero) que a aprender el mapeo de identidad propiamente dicho mediante capas no lineales.
Estas conexiones de salto facilitan el flujo de gradiente durante la retropropagación, mitigando el problema del gradiente evanescente que suele afectar a las redes muy profundas. Esto permite construir y entrenar eficazmente redes con cientos o incluso miles de capas, consiguiendo notables mejoras de precisión en conjuntos de datos de referencia difíciles como ImageNet.
Las arquitecturas ResNet se convirtieron rápidamente en una columna vertebral estándar para muchas tareas de visión por ordenador más allá de la clasificación de imágenes, entre las que se incluyen:
Su capacidad para extraer potentes características de las imágenes la convirtió en una arquitectura muy versátil y ampliamente adoptada.
Las arquitecturas ResNet están fácilmente disponibles en los principales marcos de aprendizaje profundo como PyTorchPyTorch sitio oficialPyTorch ) y TensorFlowTensorFlow sitio oficialTensorFlow ). Los modelos preentrenados, a menudo entrenados en ImageNet, son accesibles a través de bibliotecas como torchvision, lo que permite un aprendizaje de transferencia eficaz. Plataformas comoUltralytics HUB permiten a los usuarios aprovechar diversas arquitecturas, incluidas las basadas en ResNet, para entrenar modelos personalizados y desplegarlosUltralytics documentación deUltralytics HUB). Puedes encontrar más recursos educativos sobre las CNN en Stanford CS231n o a través de cursos como los que ofrece DeepLearning.AI.