Descobre como as ResNets revolucionam a aprendizagem profunda ao resolver gradientes de desaparecimento, permitindo redes ultra-profundas para análise de imagens, PNL e muito mais.
As redes residuais, normalmente conhecidas como ResNet, representam uma arquitetura inovadora de rede neural convolucional (CNN) desenvolvida por Kaiming He e colegas da Microsoft Research. Introduzida no seu artigo de 2015,"Deep Residual Learning for Image Recognition", a ResNet abordou um grande desafio na aprendizagem profunda (DL): o problema da degradação. Esse problema ocorre quando adicionar mais camadas a uma rede muito profunda leva a um erro de treinamento mais alto, contrariando a expetativa de que modelos mais profundos deveriam ter melhor desempenho. A inovação da ResNet permitiu o treinamento bem-sucedido de redes substancialmente mais profundas do que era possível anteriormente, avançando significativamente o estado da arte em várias tarefas de visão computacional (CV).
A ideia central da ResNet é a introdução de "ligações de salto" ou "ligações de atalho". Nas redes profundas tradicionais, cada camada alimenta sequencialmente a seguinte. A ResNet modifica isto, permitindo que a entrada de um bloco de camadas seja adicionada à saída desse bloco. Isto cria um "bloco residual" onde as camadas aprendem um mapeamento residual (a diferença entre a entrada e a saída desejada) em vez de tentar aprender diretamente todo o mapeamento subjacente. Se a função óptima estiver mais próxima de um mapeamento de identidade (em que a saída deve ser igual à entrada), é mais fácil para a rede aprender a tornar o resíduo zero (conduzindo os pesos das camadas empilhadas para zero) do que aprender o próprio mapeamento de identidade através de camadas não lineares.
Essas conexões de salto facilitam o fluxo de gradiente durante a retropropagação, atenuando o problema do gradiente de desaparecimento que frequentemente assola as redes muito profundas. Isso permite a construção e o treinamento eficaz de redes com centenas ou até milhares de camadas, alcançando melhorias notáveis de precisão em conjuntos de dados de referência desafiadores, como o ImageNet.
As arquitecturas ResNet rapidamente se tornaram uma espinha dorsal padrão para muitas tarefas de visão computacional para além da classificação de imagens, incluindo:
A sua capacidade de extrair caraterísticas poderosas das imagens tornou-a uma arquitetura altamente versátil e amplamente adoptada.
As arquitecturas ResNet estão prontamente disponíveis nas principais estruturas de aprendizagem profunda, como PyTorchPyTorch site oficialPyTorch ) e TensorFlowTensorFlow ). Os modelos pré-treinados, frequentemente treinados no ImageNet, estão acessíveis através de bibliotecas como a torchvision, permitindo uma aprendizagem por transferência eficaz. Plataformas como o Ultralytics HUB permitem aos utilizadores tirar partido de várias arquitecturas, incluindo as baseadas em ResNet, para treinar modelos personalizados e implementá-losUltralytics documentaçãoUltralytics HUB). Podes encontrar mais recursos educativos sobre CNNs em Stanford CS231n ou através de cursos como os oferecidos por DeepLearning.AI.