용어집

비전 트랜스포머(ViT)

컴퓨터 비전에서 비전 트랜스포머(ViT)의 강력한 성능을 알아보세요. 글로벌 이미지 컨텍스트를 캡처하여 CNN보다 뛰어난 성능을 발휘하는 방법을 알아보세요.

비전 트랜스포머(ViT)는 원래 자연어 처리(NLP)를 위해 설계된 트랜스포머 모델을 변형한 신경망 아키텍처의 일종입니다. Google 연구원들이 "이미지가 16x16 단어의 가치가 있다" 논문에서 소개한 ViT는 이미지 패치의 시퀀스에 트랜스포머의 자기 주의 메커니즘을 직접 적용하여 이미지 처리를 시퀀스 모델링 작업으로 취급합니다. 이 접근 방식은 컴퓨터 비전(CV)에서 컨볼루션 신경망(CNN) 이 지배적이었던 방식에서 중요한 변화를 가져왔습니다.

비전 트랜스포머 작동 방식

컨볼루션 필터를 사용하여 이미지를 픽셀 단위로 처리하는 대신, ViT는 먼저 입력 이미지를 고정된 크기의 겹치지 않는 패치로 나눕니다. 그런 다음 이러한 패치를 벡터로 평평하게 만들고, 선형으로 임베딩하고, 위치 임베딩으로 증강하여 공간 정보를 유지합니다(NLP에서 단어 위치가 인코딩되는 방식과 유사). 그런 다음 이 벡터 시퀀스는 표준 Transformer 인코더에 공급되며, 이 인코더는 다중 헤드 자체 주의 계층을 사용하여 서로 다른 패치의 중요도를 평가합니다. Transformer 인코더의 최종 출력은 일반적으로 이미지 분류와 같은 작업을 위해 다중 레이어 퍼셉트론과 같은 간단한 분류 헤드로 전달됩니다. 이 아키텍처를 통해 ViT는 이미지 내의 장거리 종속성과 글로벌 컨텍스트를 효과적으로 모델링할 수 있습니다.

ViT 대 CNN

ViT와 CNN은 모두 컴퓨터 비전의 기본 아키텍처이지만( 비전 모델의 역사 참조), 그 접근 방식은 크게 다릅니다:

귀납적 편향: CNN은 컨볼루션과 풀링 레이어를 통해 로컬리티와 번역 동등성에 대한 강력한 귀납적 편향을 가지고 있습니다. ViT는 귀납적 편향이 약해 데이터의 학습 패턴, 특히 자기 주의를 통한 이미지의 먼 부분 간의 관계에 더 많이 의존합니다.
데이터 의존성: 일반적으로 최신 CNN의 성능을 능가하려면 많은 양의 학습 데이터(또는 광범위한 사전 학습)가 필요합니다. 데이터 세트가 작을수록 CNN은 내장된 편향으로 인해 일반화가 더 잘 되는 경우가 많습니다.
계산 비용: 인공 지능 학습은 계산 집약적일 수 있으며, 종종 상당한 GPU 리소스를 필요로 합니다. 하지만 추론 속도는 특히 대규모 모델의 경우 경쟁력이 있을 수 있습니다. 예를 들어 RT-DETR 모델은 실시간 성능을 제공하지만 동급의 CNN 기반 YOLO 모델보다 더 많은 리소스가 필요할 수 있습니다.
글로벌 컨텍스트와 로컬 컨텍스트: CNN은 로컬 패턴에서 계층적 특징을 구축합니다. ViT는 가장 초기 계층에서 패치 간의 글로벌 상호작용을 모델링할 수 있으므로 특정 작업에 대해 더 광범위한 컨텍스트를 더 효과적으로 포착할 수 있습니다.

ViT와 CNN 중 어떤 것을 선택할지는 특정 작업, 사용 가능한 데이터 세트, 계산 리소스에 따라 달라집니다. 일반적으로 많은 양의 학습 데이터를 사용할 수 있고 글로벌 컨텍스트가 가장 중요한 경우 ViT가 탁월합니다. 백본으로 사용되는 것과 같은 CNN은 Ultralytics YOLO 제품군(예 YOLOv8, YOLOv10, YOLO11)은 특히 제한된 디바이스에서 실시간 객체 감지에 매우 효과적이고 효율적입니다. 컨볼루션 기능과 트랜스포머 레이어를 결합한 하이브리드 아키텍처(예: RT-DETR)도 두 접근 방식의 강점을 모두 활용하려는 유망한 방향입니다. 전이 학습과 같은 기법을 사용하여 사전 학습된 모델을 미세 조정하는 것은 ViT 또는 CNN 기반이든 간에 일반적인 관행입니다.

비전 트랜스포머(ViT)

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

비전 트랜스포머 작동 방식

관련성 및 응용 분야

ViT 대 CNN

블로그 더 보기

Ultralytics 커뮤니티 가입하기

비전 트랜스포머(ViT)

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

비전 트랜스포머 작동 방식

관련성 및 응용 분야

ViT 대 CNN

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련