Yolo 비전 선전
선전
지금 참여하기
용어집

Vision Transformer (ViT)

비전 트랜스포머(ViT)의 힘을 탐구하세요. Ultralytics 함께 셀프 어텐션과 패치 토큰화가 CNN을 넘어 컴퓨터 비전을 어떻게 혁신하는지 알아보세요.

비전 트랜스포머(ViT)는 시각적 작업을 해결하기 위해 자연어 처리(NLP)를 위해 원래 설계된 자기 주의 메커니즘을 적용한 딥 러닝 아키텍처입니다. 이미지를 계층적 국소 픽셀 그리드를 통해 처리하는 기존의 컨볼루션 신경망(CNN)과 달리, ViT는 이미지를 이산 패치들의 시퀀스로 취급합니다. 이 접근법은 획기적인 연구 논문 "An Image is Worth 16x16 Words"를 통해 대중화되었으며, 순수 트랜스포머 아키텍처가 컨볼루션 레이어에 의존하지 않고도 컴퓨터 비전(CV) 분야에서 최첨단 성능을 달성할 수 있음을 입증했습니다. 글로벌 어텐션을 활용함으로써 ViT는 첫 번째 레이어부터 이미지 전체에 걸친 장거리 의존성을 포착할 수 있습니다.

Vision Transformer는 어떻게 작동할까요?

ViT의 근본적인 혁신은 입력 데이터를 구조화하는 방식에 있습니다. 이미지를 표준 트랜스포머와 호환되도록 만들기 위해, 이 모델은 시각 정보를 벡터 시퀀스로 분해합니다. 이는 언어 모델이 단어 문장을 처리하는 방식을 모방한 것입니다.

  1. 패치 토큰화: 입력 이미지는 고정 크기의 정사각형 격자로 분할되며, 일반적으로 16x16 픽셀입니다. 각 정사각형은 평면화되어 벡터로 변환되며, 효과적으로 시각적 토큰이 됩니다.
  2. 선형 투영: 평탄화된 패치들은 훈련 가능한 선형 레이어를 통과하여 고밀도 임베딩을 생성합니다. 이 단계는 원시 픽셀 값들을 모델이 처리할 수 있는 고차원 공간으로 매핑합니다.
  3. 위치 인코딩: 아키텍처가 시퀀스를 병렬로 처리하며 순서나 공간에 대한 본질적인 이해가 부족하기 때문에, 패치 임베딩에 학습 가능한 위치 인코딩이추가됩니다. 이를 통해 모델은 각 패치가 원본 이미지에서 어디에 속하는지에 대한 공간 정보를 유지할 수 있습니다.
  4. 자기 주의 메커니즘: 시퀀스는 트랜스포머 인코더로 입력되며, 여기서 자기 주의는 모든 패치가 다른 모든 패치와 동시에 상호작용할 수 있게 합니다. 이를 통해 네트워크는 좌상단 모서리의 픽셀이 우하단 모서리의 픽셀과 어떻게 관계되는지 이해하는 전역적 컨텍스트를 학습할 수 있습니다.
  5. 분류 헤더: 이미지 분류와 같은 작업의 경우 시퀀스 앞에 특별한 "클래스 토큰"이 추가되는 경우가 많습니다. 이 토큰의 최종 출력 상태는 이미지의 통합 표현 역할을 하며, 이후 다층 퍼셉트론(MLP)과 같은 분류기에 입력됩니다.

비전 트랜스포머 대 컨볼루션 신경망

두 아키텍처 모두 시각적 데이터를 이해하는 것을 목표로 하지만, 운영 철학에서는 크게 다릅니다. CNN은 '변환 불변성'으로 알려진 강력한 '귀납적 편향'을 지니고 있습니다. 이는 본질적으로 국소적 특징(가장자리나 질감 등)이 위치와 무관하게 중요하다고 가정함을 의미합니다. 이로 인해 CNN은 데이터 효율성이 매우 높으며 소규모 데이터셋에서도 효과적입니다.

반대로 비전 트랜스포머는 이미지 특이적 편향이 적습니다. 이들은 JFT-300M이나 전체 ImageNet과 같은 방대한 양의 훈련 데이터를 활용하여 공간적 관계를 처음부터 학습해야 합니다. ImageNet 데이터셋과 같은 방대한 양의 훈련 데이터를 사용하여 공간적 관계를 처음부터 학습해야 합니다. 이는 훈련을 더 많은 계산 자원을 필요로 하게 하지만, ViT가 놀라울 정도로 잘 확장될 수 있게 합니다. 충분한 데이터와 컴퓨팅 파워가 있다면, ViT는 국소적 컨볼루션이 놓칠 수 있는 복잡한 전역 구조를 포착함으로써 CNN보다 우수한 성능을 발휘할 수 있습니다.

실제 애플리케이션

글로벌 컨텍스트를 이해하는 능력 덕분에 ViT는 복잡하고 중요한 환경에서 특히 유용합니다.

  • 의료 영상 분석: 의료 AI 분야에서 ViT는 MRI나 조직병리 슬라이드 같은 고해상도 스캔 분석에 활용됩니다. 예를 들어 종양 탐지 시 ViT는 조직 내 미세한 질감 이상을 슬라이드 전체의 광범위한 구조적 변화와 연관 지어 국소 처리로는 간과될 수 있는 악성 패턴을 식별할 수 있습니다.
  • 위성 영상 및 원격 감지: ViT는 물체 간 관계가 광범위한 거리를 아우르는 위성 영상 분석에 탁월합니다. 예를 들어, 벌목 현장을 멀리 떨어진 벌목 도로와 연결하려면 지형의 "전체적인 그림"을 이해해야 하는데, 이는 ViT의 글로벌 인식 능력이 표준 CNN의 제한된 수용 영역보다 우수한 작업 영역입니다.

Ultralytics 활용한 Transformers 활용

그리고 ultralytics 라이브러리는 트랜스포머 기반 아키텍처를 지원하며, 특히 RT-DETR 실시간 탐지 트랜스포머)주력 YOLO26 에지 디바이스에서 속도와 정확도의 균형을 제공한다는 점에서 선호되지만, RT-DETR 글로벌 컨텍스트를 우선시하는 시나리오에 강력한 대안을 RT-DETR .

다음 Python 예제는 사전 훈련된 트랜스포머 기반 모델을 로드하고 추론을 실행하는 방법을 보여줍니다:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

향후 전망

ViT의 높은 계산 비용을 해결하기 위한 연구가 빠르게 진화하고 있습니다. FlashAttention과 같은 기술은 이러한 모델을 더 빠르고 메모리 효율적으로 만들고 있습니다. 또한 CNN의 효율성과 트랜스포머의 어텐션을 결합한 하이브리드 아키텍처가 보편화되고 있습니다. 이러한 고급 워크플로우를 관리하려는 팀을 위해 Ultralytics 데이터 주석 작업, 클라우드를 통한 복잡한 모델 훈련, 다양한 엔드포인트로의 배포를 위한 통합 환경을 제공합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기