Glossário

Redes residuais (ResNet)

Descobre como as ResNets revolucionam a aprendizagem profunda ao resolver gradientes de desaparecimento, permitindo redes ultra-profundas para análise de imagens, PNL e muito mais.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

As redes residuais, normalmente conhecidas como ResNets, representam um avanço significativo no campo da aprendizagem profunda, particularmente na conceção de redes neurais convolucionais profundas. Elas foram introduzidas para resolver um desafio crítico no treinamento de redes muito profundas: o problema do gradiente de desaparecimento. À medida que as redes se tornam mais profundas, elas geralmente se tornam mais difíceis de treinar e seu desempenho pode diminuir. As ResNets revolucionaram a arquitetura das redes ao permitir o treino de redes com profundidades sem precedentes, conduzindo a melhorias substanciais em várias tarefas de visão computacional.

Conceitos-chave

No centro da arquitetura ResNet está o conceito de "ligações residuais", também conhecidas como "ligações de salto". As redes profundas tradicionais aprendem mapeamentos diretos da entrada para a saída. Em contrapartida, as ResNets são concebidas para aprender mapeamentos residuais. Em vez de tentar aprender uma função complexa diretamente, um bloco residual aprende o "residual" - a diferença entre a entrada e a saída desejada. Isto é conseguido adicionando a entrada original de um bloco à sua saída, criando efetivamente um atalho ou uma ligação de salto.

Essa modificação, aparentemente simples, tem implicações profundas. As conexões de salto permitem que os gradientes fluam mais facilmente através da rede, atenuando o problema do gradiente de desaparecimento. Ao permitir que a rede aprenda mapeamentos de identidade (em que a saída é igual à entrada) quando benéfico, as ResNets podem efetivamente ignorar camadas se elas não estiverem contribuindo para o desempenho, o que é crucial em redes muito profundas. Essa inovação permite o treinamento de redes muito mais profundas, como a ResNet-50, a ResNet-101 e até mesmo a ResNet-152, que têm 50, 101 e 152 camadas, respetivamente, superando significativamente o desempenho de arquiteturas anteriores mais superficiais.

Aplicações da ResNet

As ResNets tornaram-se uma arquitetura fundamental na visão computacional e são amplamente utilizadas em inúmeras aplicações:

  • Classificação de imagens: As ResNets obtiveram resultados de última geração em referências de classificação de imagens como o ImageNet. A sua capacidade de aprender eficazmente com redes muito profundas levou a melhorias significativas na precisão de tarefas como a identificação de objectos, cenas e categorias nas imagens. Por exemplo, em modelos Ultralytics YOLO modelos, backbones como a ResNet podem ser integrados para melhorar a extração de caraterísticas para tarefas de deteção de objectos e classificação de imagens.

  • Deteção e segmentação de objectos: Arquitecturas como Ultralytics YOLOv8 e SAM (Segment Anything Model) utilizam frequentemente a ResNet como espinha dorsal para a extração de caraterísticas. Na deteção de objectos, as ResNets ajudam a localizar e classificar com precisão os objectos numa imagem, fornecendo representações de caraterísticas robustas e profundas. Na segmentação, por exemplo, as ResNets contribuem para o delineamento e o reconhecimento precisos de objectos ao nível do pixel, cruciais para aplicações como a condução autónoma e a análise de imagens médicas.

  • Análise de imagens médicas: Na análise de imagens médicas, as ResNets são usadas para tarefas como deteção de tumores, classificação de doenças e segmentação de órgãos. A profundidade e o poder de representação das ResNets são essenciais para captar padrões subtis em imagens médicas complexas, melhorando a precisão do diagnóstico e o planeamento do tratamento.

  • Reconhecimento facial: As ResNets são utilizadas em sistemas de reconhecimento facial para a extração de caraterísticas de imagens faciais. A sua arquitetura profunda permite a aprendizagem de caraterísticas faciais complexas, conduzindo a uma identificação e verificação altamente precisas em aplicações de segurança, vigilância e personalizadas.

  • Processamento de linguagem natural (PNL) e mais além: Embora utilizado principalmente na visão computacional, o conceito de conexões residuais influenciou outros domínios, incluindo o processamento de linguagem natural (PNL). O sucesso das ResNets inspirou arquitecturas semelhantes na PNL e noutras áreas da aprendizagem automática, demonstrando o amplo impacto desta inovação arquitetónica.

Vantagens da ResNet

A principal vantagem da ResNet é a sua capacidade de treinar eficazmente redes muito profundas, ultrapassando o problema de degradação encontrado nas redes profundas tradicionais. Essa profundidade permite que as ResNets aprendam caraterísticas mais complexas e hierárquicas, levando a um melhor desempenho em várias tarefas. Além disso, as arquitecturas ResNet são relativamente simples de implementar e tornaram-se um bloco de construção padrão em muitos modelos modernos de aprendizagem profunda. O seu desempenho robusto e a facilidade de utilização solidificaram as ResNets como uma pedra angular no avanço da aprendizagem profunda e da inteligência artificial. Para os utilizadores que procuram implementar e otimizar modelos de IA de visão, é crucial compreender as arquitecturas ResNet, e plataformas como o Ultralytics HUB podem facilitar a formação e a implementação de modelos baseados em ResNet para várias aplicações.

Lê tudo