비전 트랜스포머(ViT)는 전통적으로 자연어 처리(NLP)에 사용되던 트랜스포머 기반 아키텍처를 비전 작업에 도입하여 컴퓨터 비전에 혁명을 일으켰습니다. 컨볼루션 연산에 의존하는 컨볼루션 신경망(CNN)과 달리 ViT는 자체 주의 메커니즘을 사용하여 이미지 데이터를 분석하고 처리하므로 다양한 비전 과제에 대해 보다 유연하고 확장 가능한 접근 방식을 제공합니다.
ViT는 입력 이미지를 더 작은 고정 크기 패치로 분할하고 평평하게 만든 다음 각 패치를 NLP의 단어와 유사한 '토큰'으로 취급합니다. 그런 다음 이러한 토큰을 고차원 벡터에 임베드하고 여러 계층의 트랜스포머 인코더를 통과시켜 모델이 이미지의 관련 부분에 집중할 수 있도록 하는 자체 주의 메커니즘을 사용합니다. 이러한 구조를 통해 ViT는 로컬 및 글로벌 종속성을 모두 효과적으로 캡처할 수 있습니다.
ViT는 위치 인코딩에 의존하여 기존 트랜스포머에는 없는 이미지 데이터의 중요한 측면인 공간 정보를 유지합니다. ViT는 패치 간의 관계를 학습함으로써 이미지 분류, 물체 감지, 세분화와 같은 작업에서 최첨단 성능을 달성할 수 있습니다.
트랜스포머 용어집 항목에서 트랜스포머의 작동 방식에 대해 자세히 알아보세요.
ViT는 글로벌 이미지 특징을 캡처하는 기능을 활용하여 이미지 분류 작업에서 탁월한 성능을 발휘합니다. Google 의 비전 트랜스포머와 같은 사전 훈련된 ViT는 ImageNet과 같은 벤치마크에서 최첨단 정확도를 달성했습니다. 예를 들어, 의료 분야에서는 의료 이미지를 분류하여 질병 진단을 지원하는 데 ViT를 활용합니다.
Ultralytics YOLO 모델을 사용하여 이미지 분류 작업을 살펴보세요.
기존의 컨볼루션 기반 백본을 대체하여 객체 감지 파이프라인에서 ViT가 점점 더 많이 사용되고 있습니다. 지역 제안 네트워크에 의존하지 않고 객체를 감지하고 로컬라이즈하는 데 있어 ViT가 효과적이라는 것을 DETR(DEtection TRansformer)과 같은 모델이 입증하고 있습니다.
물체 감지 솔루션 알아보기 Ultralytics YOLO.
ViT는 셀프 어텐션을 활용하여 시맨틱 및 인스턴스 세분화를 위한 정확하고 효율적인 솔루션을 제공합니다. 도로 표지판, 보행자, 차량을 감지하는 데 정확한 픽셀 수준의 세분화가 중요한 자율 주행 분야가 여기에 해당합니다.
이미지 세분화에서 세분화 작업에 대해 자세히 알아보세요.
헬스케어: ViT는 종양 탐지 및 장기 분할과 같은 작업을 위해 의료 영상에 사용됩니다. 고해상도 이미지를 분석하는 능력은 조기 진단과 치료 계획에 도움이 됩니다. 예를 들어, Ultralytics YOLO11의 의료 이미징 기능은 ViT 기반 백본을 통해 정밀도를 향상시킬 수 있습니다.
자율주행 차량: ViT는 자율주행차의 비전 시스템을 강화하여 장애물, 차선 표시, 교통 표지판을 실시간으로 감지할 수 있도록 지원합니다. 글로벌 상황 인식 기능은 안전과 의사 결정을 향상시킵니다.
비전 AI 솔루션으로 자율 주행에서 AI의 더 많은 응용 분야를 살펴보세요.
ViT는 상당한 이점을 제공하지만, 그에 따른 문제점도 있습니다:
이러한 문제를 해결하기 위해 ViT와 CNN을 결합한 하이브리드 모델과 패치 병합과 같은 기법을 통해 ViT의 효율성을 높이는 접근 방식이 도입되었습니다.
ViT는 계속해서 컴퓨터 비전의 경계를 넓혀가며 산업 전반에 걸쳐 혁신적인 솔루션을 제공하고 있습니다. 개발자는 Ultralytics HUB와 같은 도구를 사용하여 실제 애플리케이션에서 ViT의 잠재력을 탐색하고 AI 솔루션 배포 및 확장을 간소화할 수 있습니다.