용어집

비전 트랜스포머(ViT)

비전 트랜스포머(ViT)가 분류, 감지 및 세분화 작업에서 탁월한 셀프 어텐션으로 컴퓨터 비전을 혁신하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

비전 트랜스포머(ViT)는 전통적으로 자연어 처리(NLP)에 사용되던 트랜스포머 기반 아키텍처를 비전 작업에 도입하여 컴퓨터 비전에 혁명을 일으켰습니다. 컨볼루션 연산에 의존하는 컨볼루션 신경망(CNN)과 달리 ViT는 자체 주의 메커니즘을 사용하여 이미지 데이터를 분석하고 처리하므로 다양한 비전 과제에 대해 보다 유연하고 확장 가능한 접근 방식을 제공합니다.

비전 트랜스포머 작동 방식

ViT는 입력 이미지를 더 작은 고정 크기 패치로 분할하고 평평하게 만든 다음 각 패치를 NLP의 단어와 유사한 '토큰'으로 취급합니다. 그런 다음 이러한 토큰을 고차원 벡터에 임베드하고 여러 계층의 트랜스포머 인코더를 통과시켜 모델이 이미지의 관련 부분에 집중할 수 있도록 하는 자체 주의 메커니즘을 사용합니다. 이러한 구조를 통해 ViT는 로컬 및 글로벌 종속성을 모두 효과적으로 캡처할 수 있습니다.

ViT는 위치 인코딩에 의존하여 기존 트랜스포머에는 없는 이미지 데이터의 중요한 측면인 공간 정보를 유지합니다. ViT는 패치 간의 관계를 학습함으로써 이미지 분류, 물체 감지, 세분화와 같은 작업에서 최첨단 성능을 달성할 수 있습니다.

CNN 대비 장점

  1. 확장성: ViT는 CNN에 비해 대규모 데이터 세트에 더 잘 확장되므로 고해상도 이미지나 다양한 데이터 세트가 필요한 애플리케이션에 적합합니다.
  2. 글로벌 컨텍스트: CNN은 로컬 수신 필드에만 국한되는 반면, 자체 주의 메커니즘을 통해 ViT는 이미지 전체에서 장거리 종속성을 모델링할 수 있습니다.
  3. 유연성: 이미지넷과 같은 사전 학습된 모델을 활용하여 최소한의 아키텍처 변경으로 다양한 작업에 맞게 ViT를 미세 조정할 수 있습니다.

트랜스포머 용어집 항목에서 트랜스포머의 작동 방식에 대해 자세히 알아보세요.

비전 트랜스포머의 애플리케이션

이미지 분류

ViT는 글로벌 이미지 특징을 캡처하는 기능을 활용하여 이미지 분류 작업에서 탁월한 성능을 발휘합니다. Google 의 비전 트랜스포머와 같은 사전 훈련된 ViT는 ImageNet과 같은 벤치마크에서 최첨단 정확도를 달성했습니다. 예를 들어, 의료 분야에서는 의료 이미지를 분류하여 질병 진단을 지원하는 데 ViT를 활용합니다.

Ultralytics YOLO 모델을 사용하여 이미지 분류 작업을 살펴보세요.

물체 감지

기존의 컨볼루션 기반 백본을 대체하여 객체 감지 파이프라인에서 ViT가 점점 더 많이 사용되고 있습니다. 지역 제안 네트워크에 의존하지 않고 객체를 감지하고 로컬라이즈하는 데 있어 ViT가 효과적이라는 것을 DETR(DEtection TRansformer)과 같은 모델이 입증하고 있습니다.

물체 감지 솔루션 알아보기 Ultralytics YOLO.

이미지 세분화

ViT는 셀프 어텐션을 활용하여 시맨틱 및 인스턴스 세분화를 위한 정확하고 효율적인 솔루션을 제공합니다. 도로 표지판, 보행자, 차량을 감지하는 데 정확한 픽셀 수준의 세분화가 중요한 자율 주행 분야가 여기에 해당합니다.

이미지 세분화에서 세분화 작업에 대해 자세히 알아보세요.

실제 사례

  1. 헬스케어: ViT는 종양 탐지 및 장기 분할과 같은 작업을 위해 의료 영상에 사용됩니다. 고해상도 이미지를 분석하는 능력은 조기 진단과 치료 계획에 도움이 됩니다. 예를 들어, Ultralytics YOLO11의 의료 이미징 기능은 ViT 기반 백본을 통해 정밀도를 향상시킬 수 있습니다.

  2. 자율주행 차량: ViT는 자율주행차의 비전 시스템을 강화하여 장애물, 차선 표시, 교통 표지판을 실시간으로 감지할 수 있도록 지원합니다. 글로벌 상황 인식 기능은 안전과 의사 결정을 향상시킵니다.

비전 AI 솔루션으로 자율 주행에서 AI의 더 많은 응용 분야를 살펴보세요.

도전 과제 및 고려 사항

ViT는 상당한 이점을 제공하지만, 그에 따른 문제점도 있습니다:

  • 데이터 요구 사항: 자체 주의 메커니즘이 효과적으로 일반화하려면 광범위한 데이터가 필요하기 때문에 ViT는 대규모 데이터 세트에서 가장 잘 작동합니다.
  • 계산 비용: ViT를 훈련하려면 자기 주의가 4차원적으로 복잡하기 때문에 상당한 컴퓨팅 리소스가 필요합니다.

이러한 문제를 해결하기 위해 ViT와 CNN을 결합한 하이브리드 모델과 패치 병합과 같은 기법을 통해 ViT의 효율성을 높이는 접근 방식이 도입되었습니다.

관련 개념

  • 트랜스포머: ViT는 원래 NLP용으로 설계된 트랜스포머의 특화된 애플리케이션입니다. 트랜스포머에 대해 자세히 알아보세요.
  • 자기 주의: 이미지의 다양한 부분에 집중할 수 있도록 하는 ViT의 핵심 메커니즘입니다. 셀프 어텐션에 대해 자세히 알아보세요.

ViT는 계속해서 컴퓨터 비전의 경계를 넓혀가며 산업 전반에 걸쳐 혁신적인 솔루션을 제공하고 있습니다. 개발자는 Ultralytics HUB와 같은 도구를 사용하여 실제 애플리케이션에서 ViT의 잠재력을 탐색하고 AI 솔루션 배포 및 확장을 간소화할 수 있습니다.

모두 보기