용어집

비전 트랜스포머(ViT)

컴퓨터 비전에서 비전 트랜스포머(ViT)의 강력한 성능을 알아보세요. 글로벌 이미지 컨텍스트를 캡처하여 CNN보다 뛰어난 성능을 발휘하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

비전 트랜스포머(ViT)는 원래 자연어 처리를 위해 개발된 트랜스포머 아키텍처를 이미지 인식 작업에 적용한 컴퓨터 비전 분야의 중요한 변화를 나타냅니다. 이미지를 레이어별로 처리하는 기존의 CNN(Convolutional Neural Network)과 달리, ViT는 이미지를 작은 패치로 나누고 이러한 패치를 문장의 단어처럼 시퀀스의 토큰으로 취급합니다. 이 새로운 접근 방식을 통해 ViT는 Transformer의 강력한 자기 주의 메커니즘을 활용하여 이미지 내의 글로벌 관계를 포착함으로써 다양한 컴퓨터 비전 작업에서 최첨단 성능을 발휘할 수 있습니다.

비전 트랜스포머 작동 방식

비전 트랜스포머의 핵심은 먼저 이미지를 고정된 크기의 패치 그리드로 분할하여 처리하는 것입니다. 그런 다음 이러한 패치를 평평하게 선형적으로 변환하여 벡터 표현인 임베딩으로 변환합니다. 이러한 패치 임베딩에 위치 임베딩이 추가되어 이미지 구조를 이해하는 데 중요한 공간 정보를 유지합니다. 이렇게 임베딩된 패치 시퀀스는 표준 Transformer 인코더에 공급됩니다.

트랜스포머 인코더는 여러 계층의 멀티 헤드 셀프 어텐션 및 피드 포워드 네트워크로 구성되어 있습니다. 여기서 핵심 구성 요소는 모델이 이미지를 처리할 때 다른 모든 패치와 비교하여 각 패치의 중요도를 평가할 수 있는 자체 주의 메커니즘입니다. 이를 통해 ViT는 이미지의 글로벌 컨텍스트를 이해하여 로컬 특징에 초점을 맞춘 CNN이 놓칠 수 있는 장거리 종속성을 포착할 수 있습니다. 이러한 글로벌 컨텍스트 이해는 비전 트랜스포머의 주요 강점입니다. 기본 원리에 대해 더 자세히 알아보려면 제이 알라마르의 '일러스트레이티드 트랜스포머'와 같은 리소스에서 트랜스포머 아키텍처에 대한 훌륭한 시각적 설명을 제공합니다.

관련성 및 응용 분야

비전 트랜스포머는 인상적인 성능과 확장성으로 인해 빠르게 각광받고 있습니다. 글로벌 컨텍스트를 캡처하는 능력과 대규모 데이터 세트의 이점을 활용할 수 있는 능력 덕분에 최신 딥 러닝 애플리케이션에서 높은 관련성을 갖게 되었습니다. ViT의 주요 애플리케이션은 다음과 같습니다:

  • 이미지 분류: ViT는 이미지 분류 벤치마크에서 최고의 결과를 달성했으며, 종종 기존 CNN 기반 모델의 성능을 능가합니다. 이러한 아키텍처는 ImageNet과 같은 대규모 데이터 세트에서 학습할 때 특히 효과적입니다.
  • 객체 감지: 비전 트랜스포머는 객체 감지 프레임워크의 백본으로 점점 더 많이 사용되고 있습니다. 다음과 같은 모델 RT-DETR ( Ultralytics )와 같은 모델들은 높은 정확도로 실시간 성능을 달성하기 위해 비전 트랜스포머를 활용합니다.
  • 이미지 세분화: ViT는 이미지 분할 작업에도 효과적이어서 의료 이미지 분석이나 자율 주행과 같은 애플리케이션에서 픽셀 단위의 정밀한 분류를 가능하게 합니다. 예를 들어, Segment Anything 모델(SAM )은 강력한 세분화 기능을 위해 ViT 백본을 활용합니다.

실제 응용 분야는 다양한 산업에 걸쳐 있습니다. 의료 분야에서는 의료 이미지 분석을 통해 진단을 개선합니다. 농업 분야에서는 농작물 모니터링과 질병 탐지를 향상시킵니다. 또한, 효율성과 정확성이 뛰어나 에지 디바이스에 배포하기에 적합하며, NVIDIA Jetson 및 Raspberry Pi용 가이드에서 살펴볼 수 있습니다.

비전 트랜스포머와 CNN

CNN은 오랫동안 컴퓨터 비전에서 지배적인 아키텍처로 사용되어 왔지만 비전 트랜스포머는 근본적으로 다른 접근 방식을 제공합니다. CNN은 컨볼루션 레이어를 통해 로컬 패턴을 캡처하는 데 탁월하므로 로컬 특징이 중요한 작업에 효율적입니다. 그러나 때로는 장거리 종속성과 글로벌 컨텍스트를 캡처하는 데 어려움을 겪을 수 있습니다. 반면에 ViT는 자체 주의 메커니즘을 통해 본질적으로 글로벌 컨텍스트를 캡처하므로 장면에 대한 전체적인 이해가 필요한 작업에 유리합니다.

이러한 장점에도 불구하고, 일반적으로 최적의 성능을 달성하기 위해서는 CNN에 비해 훨씬 더 큰 데이터 세트가 훈련에 필요합니다. CNN은 소규모 데이터 세트와 로컬 특징 추출에 중점을 둔 작업에 더 계산 효율이 높을 수 있습니다. 특정 애플리케이션, 데이터 세트 크기, 사용 가능한 컴퓨팅 리소스에 따라 ViT와 CNN 중 하나를 선택해야 하는 경우가 많습니다. 비전 트랜스포머는 컴퓨터 비전의 중요한 진화를 의미하며, 주의 메커니즘의 힘을 입증하고 이 분야의 미래 발전을 위한 길을 열어줍니다.

모두 보기