딥 러닝에서 백본의 역할에 대해 알아보고, ResNet 및 ViT와 같은 최고의 아키텍처를 살펴보고, 실제 AI 애플리케이션에 대해 알아보세요.
딥러닝, 특히 컴퓨터 비전(CV) 분야에서 '백본'은 신경망(NN) 모델의 초기, 기본 레이어 집합을 의미합니다. 백본의 주요 목적은 이미지와 같은 원시 입력 데이터를 처리하여 간결하고 유익한 표현으로 변환하는 특징 추출입니다. 흔히 특징 맵이라고 불리는 이 표현은 입력에서 필수적인 패턴, 질감, 모양을 포착합니다. 백본은 더 높은 수준의 추론이 이루어지기 전에 초기 해석을 수행하는 AI의 눈이라고 생각하면 됩니다. 이 기초적인 처리는 후속 작업을 위한 시각적 정보를 이해하고 해석하는 모델의 전반적인 능력에 매우 중요합니다.
일반적인 백본은 일반적으로 컨볼루션 레이어, 풀링 레이어(공간 차원을 줄이는), 활성화 함수 (비선형성을 도입하는) 등 일련의 레이어로 구성됩니다. 입력 데이터가 이러한 계층을 통과하면서 네트워크는 점진적으로 계층적 특징을 학습합니다. 초기 레이어는 가장자리와 모서리 같은 단순한 요소를 감지할 수 있지만, 더 깊은 레이어는 이러한 단순한 특징을 결합하여 더 복잡한 구조, 물체의 일부, 궁극적으로는 전체 물체를 인식할 수 있습니다. 백본에서 생성된 출력은 원본 입력의 중요한 정보를 요약한 상위 수준의 특징 맵 세트입니다. 이 프로세스는 의미론적 의미를 보존하면서 데이터의 차원을 효과적으로 줄여 많은 성공적인 딥러닝 모델의 기초를 형성합니다.
객체 감지, 인스턴스 분할 또는 포즈 추정과 같은 작업을 위해 설계된 정교한 컴퓨터 비전 모델에서 백본은 필수적인 특징 표현을 제공합니다. 흔히 '목'(특징을 정제하고 집계하는)과 '머리'(최종 작업 예측을 수행하는)라고 하는 후속 구성 요소는 백본에서 추출한 특징을 기반으로 구축됩니다. 예를 들어, 탐지 헤드는 이러한 정제된 특징을 사용하여 탐지된 객체와 해당 클래스 주변의 경계 상자를 예측합니다. 백본은 이러한 후기 단계와 구별되며, 입력 데이터로부터 강력하고 범용적인 특징 표현을 생성하는 데 중점을 둡니다. 일반적인 관행은 이미지넷과 같은 대규모 데이터 세트에서 사전 훈련된 백본을 사용한 다음 전이 학습을 사용하여 특정 다운스트림 작업에 맞게 미세 조정하여 훈련 프로세스의 속도를 크게 높이는 것입니다.
특징 추출의 효과가 입증된 몇 가지 잘 정립된 신경망 아키텍처가 백본으로 자주 사용됩니다:
백본의 선택은 다양한 모델 비교에서 강조된 바와 같이 속도, 계산 비용(FLOPs), 정확도 등 모델의 성능 특성에 큰 영향을 미칩니다. 다음과 같은 프레임워크 PyTorch 및 TensorFlow와 같은 프레임워크는 이러한 백본을 구현하고 활용하는 데 필수적인 도구이며, OpenCV와 같은 라이브러리도 마찬가지입니다. Ultralytics HUB와 같은 플랫폼은 다양한 백본이 있는 모델을 사용하는 프로세스를 더욱 간소화합니다.
백본을 전체 신경망 또는 기타 특정 구성 요소와 혼동하지 않는 것이 중요합니다:
백본은 수많은 AI 애플리케이션의 기본 구성 요소입니다: