Explora el poder de las redes residuales (ResNet). Descubre cómo las conexiones omitidas resuelven el problema del gradiente desaparecido para permitir el aprendizaje profundo en la visión artificial.
Las redes residuales, ampliamente conocidas como ResNets, son un tipo específico de arquitectura de red neuronal artificial (ANN) diseñada para permitir el entrenamiento de redes extremadamente profundas. Introducida por investigadores de Microsoft 2015, ResNet resolvió un cuello de botella crítico en el aprendizaje profundo conocido como el problema del gradiente desaparecido. En las redes tradicionales , el apilamiento de más capas a menudo provocaba la saturación o degradación del rendimiento, ya que la señal necesaria para actualizar los pesos del modelo se desvanecía a medida que se propagaba hacia atrás a través de las capas. ResNet introdujo las «conexiones de salto» (o conexiones residuales), que permiten que los datos omitan una o más capas y fluyan directamente a las etapas de procesamiento posteriores. Esta innovación demostró que las redes más profundas podían entrenarse de manera eficaz, lo que condujo a importantes avances en visión artificial (CV) y se convirtió en un concepto fundamental para las arquitecturas modernas.
La característica definitoria de una ResNet es el «bloque residual». En una red neuronal convolucional (CNN) estándar, cada capa intenta aprender una correspondencia directa entre la entrada y la salida. A medida que las redes se hacen más profundas, aprender esta correspondencia directa se vuelve cada vez más difícil.
ResNet cambia este enfoque formulando el objetivo de aprendizaje de manera diferente. En lugar de esperar que cada pila de capas aprenda todo el mapeo subyacente, el bloque residual obliga a las capas a aprender el «residuo», o la diferencia, entre la entrada y la salida deseada. A continuación, la entrada original se vuelve a añadir al residuo aprendido a través de una conexión de salto. Este cambio estructural implica que, si una asignación de identidad (que pasa la entrada sin cambios) es óptima, la red puede aprender fácilmente a empujar los residuos a cero. Esto hace que los modelos de aprendizaje profundo (DL) sean mucho más fáciles de optimizar, permitiéndoles escalar de docenas a cientos o incluso miles de capas.
Desde su creación, varias variaciones de ResNet se han convertido en puntos de referencia estándar en la comunidad de IA.
La solidez de las arquitecturas ResNet las ha convertido en la opción preferida para una amplia gama de tareas visuales.
Es útil distinguir ResNet de otras arquitecturas populares para comprender su utilidad específica.
Las bibliotecas modernas de aprendizaje profundo como PyTorch el acceso a modelos ResNet preentrenados. Estos modelos son inestimables para el aprendizaje por transferencia, en el que un modelo entrenado con un gran conjunto de datos como ImageNet se ajusta para una tarea específica.
El siguiente Python muestra cómo cargar un modelo ResNet-50 preentrenado utilizando
torchvision (parte del PyTorch ) y realizar un simple paso hacia adelante. Mientras que los usuarios de
Plataforma Ultralytics puede usar a menudo
YOLO26 Para la detección, comprender los conceptos básicos subyacentes
como ResNet es crucial para una personalización avanzada.
import torch
import torchvision.models as models
# Load a pre-trained ResNet-50 model
resnet50 = models.resnet50(weights=models.ResNet50_Weights.DEFAULT)
resnet50.eval() # Set model to evaluation mode
# Create a dummy input tensor (batch_size, channels, height, width)
input_tensor = torch.randn(1, 3, 224, 224)
# Perform a forward pass to get predictions
with torch.no_grad():
output = resnet50(input_tensor)
print(f"Output shape: {output.shape}") # Expect [1, 1000] for ImageNet classes
Aunque las arquitecturas más recientes, como YOLO26, emplean estructuras altamente optimizadas para obtener la máxima velocidad y precisión, los principios del aprendizaje residual siguen siendo omnipresentes. El concepto de conexiones de salto es ahora un componente estándar en muchas redes avanzadas, incluidos los transformadores utilizados en el procesamiento del lenguaje natural (NLP) y los últimos modelos de detección de objetos. Al permitir que la información fluya más libremente a través de la red, ResNet allanó el camino para los modelos profundos y complejos que impulsan la inteligencia artificial actual.