용어집

잔여 네트워크(ResNet)

레스넷이 어떻게 소실 그라디언트를 해결하여 딥 러닝을 혁신하고 이미지 분석, 자연어 처리 등을 위한 초심도 네트워크를 구현하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

일반적으로 ResNet으로 알려진 잔여 네트워크는 Microsoft Research의 Kaiming He와 동료들이 개발한 획기적인 컨볼루션 신경망(CNN) 아키텍처를 나타냅니다. 2015년 논문'이미지 인식을 위한 심층 잔여 학습'에서 소개된 ResNet은 딥 러닝(DL)의 주요 과제인 성능 저하 문제를 해결했습니다. 이 문제는 매우 심층적인 네트워크에 더 많은 레이어를 추가하면 더 심층적인 모델이 더 나은 성능을 낼 것이라는 예상과 달리 학습 오류가 높아질 때 발생합니다. ResNet의 혁신을 통해 이전에는 불가능했던 훨씬 더 깊은 네트워크를 성공적으로 훈련할 수 있었으며, 다양한 컴퓨터 비전(CV) 작업에서 최첨단 기술을 크게 발전시켰습니다.

레스넷의 작동 방식: 연결 건너뛰기

ResNet의 핵심 아이디어는 "연결 건너뛰기" 또는 "바로 가기 연결"의 도입입니다. 기존의 딥 네트워크에서는 각 레이어가 순차적으로 다음 레이어로 연결됩니다. ResNet은 레이어 블록의 입력이 해당 블록의 출력에 추가될 수 있도록 함으로써 이를 수정합니다. 이렇게 하면 레이어가 전체 기본 매핑을 직접 학습하는 대신 잔여 매핑(입력과 원하는 출력 사이의 차이)을 학습하는 '잔여 블록'이 생성됩니다. 최적의 함수가 아이덴티티 매핑(출력이 입력과 같아야 하는)에 더 가까운 경우, 네트워크가 비선형 레이어를 통해 아이덴티티 매핑 자체를 학습하는 것보다 (쌓인 레이어의 가중치를 0으로 유도하여) 잔차를 0으로 만드는 방법을 학습하는 것이 더 쉬워집니다.

이러한 건너뛰기 연결은 역전파 중에 그라데이션 흐름을 촉진하여 매우 깊은 네트워크를 괴롭히는 소실 그라데이션 문제를 완화합니다. 이를 통해 수백, 수천 개의 레이어로 구성된 네트워크를 구축하고 효과적으로 훈련할 수 있어 ImageNet과 같은 까다로운 벤치마크 데이터 세트에서 놀라운 정확도 향상을 달성할 수 있습니다.

주요 개념

  • 잔여 블록: 몇 개의 컨볼루션 레이어와 블록의 입력을 출력에 추가하는 스킵 연결로 구성된 ResNet의 기본 구성 단위입니다.
  • 연결 건너뛰기(바로 가기): 하나 이상의 레이어를 우회하는 직접 연결로, 그라데이션 흐름과 아이덴티티 매핑 학습을 더 쉽게 수행할 수 있습니다.
  • 아이덴티티 매핑: 레이어 또는 블록이 입력을 변경하지 않고 단순히 전달하는 경우. 건너뛰기 연결을 사용하면 필요한 경우 잔여 블록이 아이덴티티 매핑을 더 쉽게 근사화할 수 있습니다.
  • 성능 저하 문제: 더 깊은 네트워크가 더 얕은 네트워크보다 성능이 떨어지는 현상(훈련 및 테스트 오류 증가)으로, ResNet의 잔여 학습으로 해결됩니다.

컴퓨터 비전의 관련성

ResNet 아키텍처는 이미지 분류를 넘어 다양한 컴퓨터 비전 작업의 표준 백본으로 빠르게 자리 잡았습니다:

  • 객체 감지: Faster R-CNN과 같은 많은 탐지 모델과 시스템에서 사용되는 일부 변형을 다음과 비교했습니다. Ultralytics YOLO 모델(예 RT-DETR), 특징 추출을 위해 ResNet 백본을 활용합니다(객체 감지 용어집).
  • 이미지 세분화: 마스크 R-CNN과 같은 아키텍처는 종종 픽셀 수준 분류에 필요한 풍부한 공간 특징을 추출하기 위해 ResNet을 사용합니다(이미지 세분화 용어집).

이미지에서 강력한 기능을 추출할 수 있는 이 아키텍처는 매우 다재다능하고 널리 채택된 아키텍처입니다.

실제 애플리케이션

  1. 의료 이미지 분석: ResNet은 종양이나 당뇨병성 망막증과 같은 이상 징후를 감지하기 위해 의료 스캔(X-레이, CT, MRI)을 분석하는 데 광범위하게 사용됩니다. ResNet이 지원하는 심도를 통해 모델은 질병을 나타내는 복잡한 패턴을 학습하여 영상의학 전문의의 진단을 도울 수 있습니다. 영상의학 분야의 AI 관련 애플리케이션을 살펴보고 의료 이미지 분석 분야에 대해 자세히 알아볼 수 있습니다. NIH의 Bridge2AI 프로그램과 같은 이니셔티브에서는 이러한 고급 모델을 활용하는 경우가 많습니다.
  2. 자율 주행: 자율주행차의 인식 시스템은 보행자, 차량, 신호등, 도로 표지판의 실시간 물체 감지 및 인식을 위해 ResNet 기반 아키텍처에 의존하는 경우가 많습니다. 복잡한 주행 시나리오(자동차 솔루션의 AI)에서의 안전을 위해서는 심층 ResNet 모델의 견고성과 정확성이 매우 중요합니다. Waymo와 같은 기업은 강력한 인식 시스템의 중요성을 자세히 설명합니다.

다른 아키텍처와 비교

  • VGGNet: VGGNet은 단순한 3x3 컨볼루션을 사용하여 깊이의 이점을 보여주었지만, 사라지는 그라디언트로 인해 매우 깊은 네트워크의 수렴에 어려움을 겪었습니다. ResNet은 이 한계를 직접 해결했습니다(Vision AI History 블로그, VGG 논문).
  • 덴스넷: 덴스넷은 피드 포워드 방식으로 각 레이어를 다른 모든 레이어에 연결하여 기능 재사용을 촉진합니다. 이는 ResNet의 추가 스킵 연결과는 다릅니다. 둘 다 정보 흐름을 개선하는 것을 목표로 하지만 서로 다른 메커니즘을 사용합니다(DenseNet 논문).
  • 비전 트랜스포머(ViT): ViT와 같은 최신 아키텍처는 ResNet의 컨볼루션 접근 방식에서 벗어난 주의 메커니즘을 사용하며, 많은 벤치마크에서 경쟁력이 있거나 우수한 성능을 보였지만, 여전히 영향력이 있고 널리 사용되고 있습니다.

도구 및 구현

ResNet 아키텍처는 다음과 같은 주요 딥 러닝 프레임워크에서 쉽게 사용할 수 있습니다. PyTorchPyTorch 공식 사이트) 및 TensorFlowTensorFlow 공식 사이트). 이미지넷에서 훈련된 사전 훈련된 모델은 종종 토치비전과 같은 라이브러리를 통해 액세스할 수 있어 효과적인 전이 학습을 가능하게 합니다. Ultralytics HUB와 같은 플랫폼을 사용하면 사용자 지정 모델을 훈련하고 배포하기 위해 ResNet 기반 아키텍처를 비롯한 다양한 아키텍처를 활용할 수 있습니다Ultralytics HUB 설명서). 더 자세한 교육 리소스는 스탠포드 CS231n의 CNN 또는 DeepLearning.AI에서 제공하는 것과 같은 과정을 통해 찾을 수 있습니다.

모두 보기