Yolo 비전 선전
선전
지금 참여하기
용어집

Transformer

트랜스포머 아키텍처와 자기 주의 메커니즘을 탐구하세요. RT-DETR Ultralytics 같은 AI 모델이 어떻게 이를 활용하여 뛰어난 정확도를 구현하는지 알아보세요.

트랜스포머는 자연어 또는 시각적 특징과 같은 순차적 입력 데이터를 처리하기 위해 셀프 어텐션이라는 메커니즘에 의존하는 딥러닝 아키텍처입니다. Google 획기적인 논문 Attention Is All You Need에서 처음 소개된 트랜스포머는 기존의 재귀 신경망(RNN)이 가졌던 순차적 처리의 한계를 극복함으로써 인공지능(AI) 분야에 혁신을 가져왔습니다. 트랜스포머는 데이터 시퀀스 전체를 동시에 분석함으로써 대규모 병렬 처리가 가능해졌고, GPU 같은 현대 하드웨어에서 훈련 시간을 획기적으로 단축시켰습니다.

Transformer 작동 방식

트랜스포머의 핵심 혁신은 자기 주의 메커니즘입니다. 이를 통해 모델은 입력 데이터의 서로 다른 부분들이 상대적으로 가지는 중요도를 가중치 부여할 수 있습니다. 예를 들어, 한 문장에서 모델은 주변 문맥을 바탕으로 "은행"이라는 단어가 "강"보다는 "돈"과 더 밀접하게 연관된다는 것을 학습할 수 있습니다.

이 아키텍처는 일반적으로 두 가지 주요 구성 요소로 이루어집니다:

  • 인코더: 입력 데이터를 풍부한 수치 표현 또는 임베딩으로 처리합니다.
  • 디코더: 인코더의 출력을 사용하여 번역된 문장이나 예측된 바운딩 박스와 같은 최종 결과를 생성합니다.

컴퓨터 비전(CV) 분야에서 모델들은 일반적으로 비전 트랜스포머(ViT)라 불리는 변형을 사용합니다. 텍스트 토큰을 처리하는 대신, 이미지를 고정 크기의 패치(예: 16x16 픽셀)로 분할합니다. 이 패치들은 평면화되어 시퀀스로 처리되며, 이를 통해 모델은 표준 컨볼루션 신경망(CNN)보다 "전역적 맥락"—이미지 내 멀리 떨어진 부분들 간의 관계 이해—을 보다 효과적으로 포착할 수 있습니다.

트랜스포머 대 관련 개념

트랜스포머 아키텍처를 관련 용어와 구분하는 것이 중요합니다:

  • 어텐션 메커니즘: 이는 데이터의 특정 부분에 집중하는 일반적인 개념입니다. 트랜스포머는 어텐션 레이어를 중심으로 완전히 구축된 특정 아키텍처인 반면, 다른 모델들은 어텐션을 단지 작은 부가 기능으로만 사용할 수 있습니다.
  • 대규모 언어 모델(LLM): "GPT"와 같은 용어는 방대한 양의 텍스트로 훈련된 특정 모델을 가리킵니다. 거의 모든 현대 LLM은 기본 엔진으로 트랜스포머 아키텍처를 사용합니다.

실제 애플리케이션

트랜스포머의 다용도성은 다양한 산업 분야에서의 채택으로 이어졌습니다:

  1. 의료 영상: 의료 분야 인공지능에서 트랜스포머는 의료 영상 분석과 같은 복잡한 작업에 활용됩니다. 전역적 공간 관계를 이해하는 능력 덕분에 고해상도 MRI 또는 CT 스캔에서 국소 특징 중심의 CNN이 놓칠 수 있는 미세한 이상 징후를 탐지하는 데 도움이 됩니다.
  2. 자율 주행 시스템: 자율 주행 차량의 경우 보행자 및 다른 차량의 궤적을 이해하는 것이 매우 중요합니다. 트랜스포머는 시간 경과에 따른 객체 추적을 통해 영상 이해에 탁월하며, 미래 움직임을 예측하여 안전한 주행을 보장합니다.

트랜스포머를 활용한 객체 탐지

CNN이 전통적으로 객체 탐지를 주도해 왔지만, 실시간 탐지 트랜스포머(RT-DETR) 와 같은 트랜스포머 기반 모델이 강력한 대안으로 부상했습니다. RT-DETR CNN 백본의 속도와 트랜스포머 디코딩 헤드의 정밀도를 RT-DETR .

그러나 순수 트랜스포머 모델은 계산량이 많을 수 있습니다. 많은 에지 애플리케이션의 경우, 효율적인 어텐션 메커니즘과 빠른 컨볼루션 처리를 통합한 YOLO26과같은 고도로 최적화된 하이브리드 모델이 속도와 정확도의 탁월한 균형을 제공합니다. 이러한 모델의 훈련 및 배포는 데이터셋 주석 작업부터 모델 내보내기까지 워크플로를 간소화하는 Ultralytics 통해 쉽게 관리할 수 있습니다.

Python : RT-DETR 사용하기

다음 예제는 Transformer 기반 모델을 사용하여 추론을 수행하는 방법을 보여줍니다. ultralytics 패키지. 이 코드는 사전 훈련된 RT-DETR 로드하고 이미지 내의 객체를 탐지합니다.

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

수학적 기초에 대한 추가 자료로는 PyTorch 트랜스포머PyTorch 기술적 깊이를 제공하며, IBM의 트랜스포머 가이드에서는 비즈니스 관점의 고수준 설명을 제공합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기