Glosario

Redes residuales (ResNet)

Descubre cómo las ResNets revolucionan el aprendizaje profundo resolviendo los gradientes de fuga, permitiendo redes ultradetalladas para el análisis de imágenes, la PNL y mucho más.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Las Redes Residuales, comúnmente conocidas como ResNets, representan un avance significativo en el campo del aprendizaje profundo, sobre todo en el diseño de redes neuronales convolucionales profundas. Se introdujeron para abordar un reto crítico en el entrenamiento de redes muy profundas: el problema del gradiente evanescente. A medida que las redes se hacen más profundas, a menudo se hacen más difíciles de entrenar, y su rendimiento puede degradarse. Las ResNets revolucionaron la arquitectura de redes al permitir el entrenamiento de redes con profundidades sin precedentes, lo que condujo a mejoras sustanciales en diversas tareas de visión por ordenador.

Conceptos clave

En el corazón de la arquitectura ResNet está el concepto de "conexiones residuales", también conocidas como "conexiones de salto". Las redes profundas tradicionales aprenden mapeos directos de la entrada a la salida. En cambio, las ResNets están diseñadas para aprender mapeos residuales. En lugar de intentar aprender directamente una función compleja, un bloque residual aprende el "residuo", es decir, la diferencia entre la entrada y la salida deseada. Esto se consigue añadiendo la entrada original de un bloque a su salida, creando de hecho un atajo o conexión de salto.

Esta modificación aparentemente sencilla tiene profundas implicaciones. Las conexiones de omisión permiten que los gradientes fluyan más fácilmente por la red, mitigando el problema del gradiente evanescente. Al permitir que la red aprenda mapeos de identidad (en los que la salida es la misma que la entrada) cuando es beneficioso, las ResNets pueden omitir eficazmente las capas si no contribuyen al rendimiento, lo que es crucial en redes muy profundas. Esta innovación permite entrenar redes mucho más profundas, como ResNet-50, ResNet-101 e incluso ResNet-152, que tienen 50, 101 y 152 capas respectivamente, superando significativamente a arquitecturas anteriores menos profundas.

Aplicaciones de ResNet

Las ResNets se han convertido en una arquitectura fundacional de la visión por ordenador y se utilizan ampliamente en numerosas aplicaciones:

  • Clasificación de imágenes: Las ResNets han logrado resultados de vanguardia en puntos de referencia de clasificación de imágenes como ImageNet. Su capacidad para aprender eficazmente de redes muy profundas ha dado lugar a mejoras significativas en la precisión de tareas como la identificación de objetos, escenas y categorías dentro de las imágenes. Por ejemplo, en Ultralytics YOLO se pueden integrar redes troncales como ResNet para mejorar la extracción de características en tareas de detección de objetos y clasificación de imágenes.

  • Detección y segmentación de objetos: Arquitecturas como Ultralytics YOLOv8 y SAM (Segment Anything Model) suelen utilizar ResNet como columna vertebral para la extracción de características. En la detección de objetos, las ResNets ayudan a localizar y clasificar con precisión los objetos dentro de una imagen, proporcionando representaciones de características robustas y profundas. Por ejemplo, en la segmentación, las ResNets contribuyen a perfilar y reconocer objetos con precisión a nivel de píxel, algo crucial para aplicaciones como la conducción autónoma y el análisis de imágenes médicas.

  • Análisis de imágenes médicas: En el análisis de imágenes médicas, las ResNets se utilizan para tareas como la detección de tumores, la clasificación de enfermedades y la segmentación de órganos. La profundidad y el poder de representación de las ResNets son esenciales para captar patrones sutiles en imágenes médicas complejas, mejorando la precisión del diagnóstico y la planificación del tratamiento.

  • Reconocimiento facial: Las ResNets se emplean en sistemas de reconocimiento facial para la extracción de características de imágenes faciales. Su arquitectura profunda permite aprender rasgos faciales intrincados, lo que conduce a una identificación y verificación muy precisas en aplicaciones de seguridad, vigilancia y personalización.

  • El Procesamiento del Lenguaje Natural (PLN) y más allá: Aunque se utiliza principalmente en visión por ordenador, el concepto de conexiones residuales ha influido en otros dominios, incluido el procesamiento del lenguaje natural (PLN). El éxito de las ResNets ha inspirado arquitecturas similares en PNL y otras áreas del aprendizaje automático, lo que demuestra el amplio impacto de esta innovación arquitectónica.

Ventajas de ResNet

La principal ventaja de ResNet es su capacidad para entrenar redes muy profundas de forma eficaz, superando el problema de degradación que presentan las redes profundas tradicionales. Esta profundidad permite a las ResNets aprender características más complejas y jerárquicas, lo que se traduce en un mejor rendimiento en diversas tareas. Además, las arquitecturas ResNet son relativamente sencillas de implementar y se han convertido en un bloque de construcción estándar en muchos modelos modernos de aprendizaje profundo. Su sólido rendimiento y facilidad de uso han consolidado a las ResNets como piedra angular en el avance del aprendizaje profundo y la inteligencia artificial. Para los usuarios que buscan implementar y optimizar modelos de IA de visión, comprender las arquitecturas ResNet es crucial, y plataformas como Ultralytics HUB pueden facilitar el entrenamiento y despliegue de modelos basados en ResNet para diversas aplicaciones.

Leer todo