용어집

백본

딥 러닝에서 백본의 역할에 대해 알아보고, ResNet 및 ViT와 같은 최고의 아키텍처를 살펴보고, 실제 AI 애플리케이션에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

딥러닝, 특히 컴퓨터 비전(CV) 분야에서 '백본'은 신경망(NN) 모델의 초기, 기본 레이어 집합을 의미합니다. 백본의 주요 목적은 이미지와 같은 원시 입력 데이터를 처리하여 간결하고 유익한 표현으로 변환하는 특징 추출입니다. 흔히 특징 맵이라고 불리는 이 표현은 입력에서 필수적인 패턴, 질감, 모양을 포착합니다. 백본은 더 높은 수준의 추론이 이루어지기 전에 초기 해석을 수행하는 AI의 눈이라고 생각하면 됩니다. 이 기초적인 처리는 후속 작업을 위한 시각적 정보를 이해하고 해석하는 모델의 전반적인 능력에 매우 중요합니다.

핵심 기능

일반적인 백본은 일반적으로 컨볼루션 레이어, 풀링 레이어(공간 차원을 줄이는), 활성화 함수 (비선형성을 도입하는) 등 일련의 레이어로 구성됩니다. 입력 데이터가 이러한 계층을 통과하면서 네트워크는 점진적으로 계층적 특징을 학습합니다. 초기 레이어는 가장자리와 모서리 같은 단순한 요소를 감지할 수 있지만, 더 깊은 레이어는 이러한 단순한 특징을 결합하여 더 복잡한 구조, 물체의 일부, 궁극적으로는 전체 물체를 인식할 수 있습니다. 백본에서 생성된 출력은 원본 입력의 중요한 정보를 요약한 상위 수준의 특징 맵 세트입니다. 이 프로세스는 의미론적 의미를 보존하면서 데이터의 차원을 효과적으로 줄여 많은 성공적인 딥러닝 모델의 기초를 형성합니다.

컴퓨터 비전 모델에서의 역할

객체 감지, 인스턴스 분할 또는 포즈 추정과 같은 작업을 위해 설계된 정교한 컴퓨터 비전 모델에서 백본은 필수적인 특징 표현을 제공합니다. 흔히 '목'(특징을 정제하고 집계하는)과 '머리'(최종 작업 예측을 수행하는)라고 하는 후속 구성 요소는 백본에서 추출한 특징을 기반으로 구축됩니다. 예를 들어, 탐지 헤드는 이러한 정제된 특징을 사용하여 탐지된 객체와 해당 클래스 주변의 경계 상자를 예측합니다. 백본은 이러한 후기 단계와 구별되며, 입력 데이터로부터 강력하고 범용적인 특징 표현을 생성하는 데 중점을 둡니다. 일반적인 관행은 이미지넷과 같은 대규모 데이터 세트에서 사전 훈련된 백본을 사용한 다음 전이 학습을 사용하여 특정 다운스트림 작업에 맞게 미세 조정하여 훈련 프로세스의 속도를 크게 높이는 것입니다.

일반적인 백본 아키텍처

특징 추출의 효과가 입증된 몇 가지 잘 정립된 신경망 아키텍처가 백본으로 자주 사용됩니다:

  • ResNet(잔여 네트워크): 잔여 연결을 도입하여 훨씬 더 깊은 네트워크를 훈련할 수 있게 함으로써 소실 경사 문제를 해결했습니다.(논문: arXiv:1512.03385).
  • VGG: 작은(3x3) 컨볼루션 필터를 사용하는 단순하고 균일한 아키텍처로 유명합니다.(논문: arXiv:1409.1556).
  • MobileNet: 모바일 및 임베디드 비전 애플리케이션을 위해 설계되었으며 효율성과 짧은 지연 시간에 중점을 둡니다.(논문: arXiv:1704.04861).
  • EfficientNet: 복합 스케일링 방법을 사용하여 최적의 효율성을 위해 네트워크 깊이, 너비 및 해상도를 균일하게 스케일링합니다.(논문: arXiv:1905.11946).
  • 비전 트랜스포머(ViT): 원래 자연어 처리에서 성공한 Transformer 아키텍처를 이미지 패치 시퀀스에 직접 적용합니다.(논문: arXiv:2010.11929).
  • CSPDarknet: 크로스 스테이지 부분 네트워크를 통합한 다크넷의 변형으로, 다음과 같은 모델에서 효과적으로 사용됩니다. Ultralytics YOLOv5 및 이후 버전에서 속도와 정확성의 균형을 맞추는 데 효과적으로 사용됩니다.

백본의 선택은 다양한 모델 비교에서 강조된 바와 같이 속도, 계산 비용(FLOPs), 정확도 등 모델의 성능 특성에 큰 영향을 미칩니다. 다음과 같은 프레임워크 PyTorchTensorFlow와 같은 프레임워크는 이러한 백본을 구현하고 활용하는 데 필수적인 도구이며, OpenCV와 같은 라이브러리도 마찬가지입니다. Ultralytics HUB와 같은 플랫폼은 다양한 백본이 있는 모델을 사용하는 프로세스를 더욱 간소화합니다.

백본과 관련 용어 구분하기

백본을 전체 신경망 또는 기타 특정 구성 요소와 혼동하지 않는 것이 중요합니다:

  • 전체 신경망: 백본은 더 큰 네트워크 아키텍처의 한 부분(일반적으로 초기 특징 추출 부분)에 불과합니다. 전체 네트워크에는 작업별 예측을 담당하는 목과 머리도 포함됩니다.
  • 감지 헤드: 객체 감지 모델의 마지막 부분으로, 특징(종종 백본과 넥 모두에서 처리)을 가져와 경계 상자 좌표와 클래스 확률을 출력합니다. 보다 범용적인 백본과 달리 작업에 따라 다릅니다.
  • 특징 추출기: 백본은 특징 추출기이지만, '특징 추출기'라는 용어는 특징을 추출하는 네트워크의 모든 부분 또는 딥 러닝 외부의 독립형 특징 추출 알고리즘(예: SIFT 또는 HOG)을 지칭할 수도 있습니다. 다음과 같은 최신 딥 러닝 아키텍처의 맥락에서는 Ultralytics YOLO와 같은 최신 딥 러닝 아키텍처에서 '백본'은 특히 초기 컨볼루션 기반을 의미합니다.

실제 애플리케이션

백본은 수많은 AI 애플리케이션의 기본 구성 요소입니다:

  1. 자율 주행: 자율 주행 차량의 시스템은 카메라와 LiDAR 센서의 입력을 처리하기 위해 강력한 백본(예: ResNet 또는 EfficientNet 변형)에 크게 의존합니다. 추출된 특징을 통해 차량, 보행자, 신호등, 차선을 감지하고 분류할 수 있으며, 이는 웨이모와 같은 회사에서 개발한 시스템에서 볼 수 있듯이 안전한 주행과 의사 결정에 매우 중요한 요소입니다.
  2. 의료 이미지 분석: 의료 AI 솔루션에서 백본은 엑스레이, CT, MRI와 같은 의료 스캔을 분석하는 데 사용됩니다. 예를 들어, DenseNet과 같은 백본은 흉부 엑스레이에서 특징을 추출하여 폐렴의 징후를 감지하거나 CT 스캔에서 잠재적인 종양을 식별할 수있습니다(관련 연구: 방사선학: AI). 이는 방사선 전문의의 진단 및 치료 계획에 도움을 줍니다. 다음과 같은 Ultralytics 모델 YOLO11 과 같은 울트라 애널리틱스 모델은 강력한 백본을 활용하여 종양 탐지와 같은 작업에 적용할 수 있습니다.
모두 보기