Glossário

Redes residuais (ResNet)

Descobre como as ResNets revolucionam a aprendizagem profunda ao resolver gradientes de desaparecimento, permitindo redes ultra-profundas para análise de imagens, PNL e muito mais.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

As redes residuais, normalmente conhecidas como ResNet, representam uma arquitetura inovadora de rede neural convolucional (CNN) desenvolvida por Kaiming He e colegas da Microsoft Research. Introduzida no seu artigo de 2015,"Deep Residual Learning for Image Recognition", a ResNet abordou um grande desafio na aprendizagem profunda (DL): o problema da degradação. Esse problema ocorre quando adicionar mais camadas a uma rede muito profunda leva a um erro de treinamento mais alto, contrariando a expetativa de que modelos mais profundos deveriam ter melhor desempenho. A inovação da ResNet permitiu o treinamento bem-sucedido de redes substancialmente mais profundas do que era possível anteriormente, avançando significativamente o estado da arte em várias tarefas de visão computacional (CV).

Como funcionam as ResNets: Salta as ligações

A ideia central da ResNet é a introdução de "ligações de salto" ou "ligações de atalho". Nas redes profundas tradicionais, cada camada alimenta sequencialmente a seguinte. A ResNet modifica isto, permitindo que a entrada de um bloco de camadas seja adicionada à saída desse bloco. Isto cria um "bloco residual" onde as camadas aprendem um mapeamento residual (a diferença entre a entrada e a saída desejada) em vez de tentar aprender diretamente todo o mapeamento subjacente. Se a função óptima estiver mais próxima de um mapeamento de identidade (em que a saída deve ser igual à entrada), é mais fácil para a rede aprender a tornar o resíduo zero (conduzindo os pesos das camadas empilhadas para zero) do que aprender o próprio mapeamento de identidade através de camadas não lineares.

Essas conexões de salto facilitam o fluxo de gradiente durante a retropropagação, atenuando o problema do gradiente de desaparecimento que frequentemente assola as redes muito profundas. Isso permite a construção e o treinamento eficaz de redes com centenas ou até milhares de camadas, alcançando melhorias notáveis de precisão em conjuntos de dados de referência desafiadores, como o ImageNet.

Conceitos-chave

  • Bloco residual: A unidade fundamental de construção de uma ResNet, que consiste em algumas camadas convolucionais e uma conexão de salto que adiciona a entrada do bloco à sua saída.
  • Saltar ligação (atalho): Uma ligação direta que ignora uma ou mais camadas, permitindo uma aprendizagem mais fácil do fluxo de gradiente e do mapeamento de identidade.
  • Mapeamento de identidade: Quando uma camada ou bloco simplesmente passa a sua entrada sem alterações. As conexões de salto facilitam que os blocos residuais aproximem os mapeamentos de identidade, se necessário.
  • Problema de degradação: O fenómeno em que as redes mais profundas têm um desempenho pior (erro de treino e de teste mais elevado) do que as redes mais superficiais, abordado pela aprendizagem residual da ResNet.

Relevância na visão computacional

As arquitecturas ResNet rapidamente se tornaram uma espinha dorsal padrão para muitas tarefas de visão computacional para além da classificação de imagens, incluindo:

  • Deteção de objectos: Muitos modelos de deteção, como o Faster R-CNN e algumas variantes utilizadas em sistemas comparados com Ultralytics YOLO do Ultralytics (por exemplo, o RT-DETR), utilizam backbones ResNet para extração de caraterísticas(glossário de Deteção de Objectos).
  • Segmentação de imagens: Arquitecturas como a Mask R-CNN empregam frequentemente ResNet para extrair caraterísticas espaciais ricas necessárias para a classificação ao nível do pixel(glossário de Segmentação de Imagem).

A sua capacidade de extrair caraterísticas poderosas das imagens tornou-a uma arquitetura altamente versátil e amplamente adoptada.

Aplicações no mundo real

  1. Análise de imagens médicas: As ResNets são amplamente utilizadas na análise de exames médicos (raios X, CT, MRI) para detetar anomalias como tumores ou retinopatia diabética. A profundidade permitida pela ResNet permite que o modelo aprenda padrões complexos indicativos de doenças, ajudando os radiologistas no diagnóstico. Podes explorar aplicações relacionadas em IA em Radiologia e saber mais sobre o campo da análise de imagens médicas. Iniciativas como o programa Bridge2AI do NIH utilizam frequentemente estes modelos avançados.
  2. Condução autónoma: Os sistemas de perceção em carros autónomos dependem frequentemente de arquitecturas baseadas em ResNet para deteção e reconhecimento de objectos em tempo real de peões, veículos, semáforos e sinais de trânsito. A robustez e a precisão dos modelos ResNet profundos são cruciais para a segurança em cenários de condução complexos(soluções de IA no sector automóvel). Empresas como a Waymo explicam a importância de sistemas de perceção robustos.

Comparação com outras arquitecturas

  • VGGNet: Embora a VGGNet tenha demonstrado os benefícios da profundidade utilizando convoluções 3x3 simples, teve dificuldades em convergir para redes muito profundas devido ao desaparecimento dos gradientes. A ResNet abordou diretamente esta limitação(blogue Vision AI History, artigo VGG).
  • DenseNet: As DenseNets ligam cada camada a todas as outras camadas de uma forma contínua, promovendo a reutilização de caraterísticas. Isto difere das ligações de salto aditivo da ResNet. Ambas visam melhorar o fluxo de informação, mas utilizam mecanismos diferentes(documento DenseNet).
  • Transformadores de visão (ViT): Arquitecturas mais recentes, como a ViT, utilizam mecanismos de atenção, divergindo da abordagem convolucional da ResNet, e têm demonstrado um desempenho competitivo ou superior em muitos parâmetros de referência, embora as ResNets continuem a ser influentes e amplamente utilizadas.

Ferramentas e implementação

As arquitecturas ResNet estão prontamente disponíveis nas principais estruturas de aprendizagem profunda, como PyTorchPyTorch site oficialPyTorch ) e TensorFlowTensorFlow ). Os modelos pré-treinados, frequentemente treinados no ImageNet, estão acessíveis através de bibliotecas como a torchvision, permitindo uma aprendizagem por transferência eficaz. Plataformas como o Ultralytics HUB permitem aos utilizadores tirar partido de várias arquitecturas, incluindo as baseadas em ResNet, para treinar modelos personalizados e implementá-losUltralytics documentaçãoUltralytics HUB). Podes encontrar mais recursos educativos sobre CNNs em Stanford CS231n ou através de cursos como os oferecidos por DeepLearning.AI.

Lê tudo