용어집

트랜스포머

Transformer 아키텍처가 어떻게 AI를 혁신하여 NLP, 컴퓨터 비전 및 고급 ML 작업의 획기적인 발전을 지원하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

트랜스포머는 인공 지능(AI)머신 러닝(ML) 분야, 특히 자연어 처리(NLP )와 컴퓨터 비전(CV) 분야를 크게 발전시킨 중추적인 신경망 아키텍처입니다. 영향력 있는 논문인"주의만 있으면 된다"에서 소개된 이 기술은 자기 주의라는 메커니즘을 사용하여 텍스트나 시계열과 같은 순차적 데이터를 처리합니다. 이를 통해 모델은 입력의 여러 부분의 중요도를 동적으로 평가하여 순환 신경망(RNN)과 같은 기존 아키텍처의 주요 한계를 극복할 수 있습니다.

트랜스포머의 작동 방식

트랜스포머의 핵심 혁신은 자기 주의 메커니즘입니다. 한 요소씩 순차적으로 입력을 처리하고 소실 그라데이션과 같은 문제로 인해 긴 시퀀스에 어려움을 겪을 수 있는 RNN과 달리, Transformers는 입력 시퀀스의 모든 부분을 동시에 고려할 수 있습니다. 이 병렬 처리 기능은 다음과 같은 회사의 GPU와 같은 최신 하드웨어에서 훈련 속도를 크게 높여줍니다. NVIDIA.

일반적인 컨볼루션 신경망(CNN)은 컨볼루션을 수행하는 고정 크기 필터를 통해 로컬 특징에 초점을 맞추지만, 주의 메커니즘을 통해 트랜스포머는 전체 입력에서 장거리 종속성과 맥락적 관계를 포착할 수 있습니다. 이러한 글로벌 컨텍스트 이해 능력은 텍스트나 이미지 패치 등 복잡한 관계를 포함하는 작업, 즉 비전 트랜스포머(ViT)에 사용되는 작업에 매우 중요합니다.

관련성 및 영향력

트랜스포머는 문맥을 파악하고 긴 시퀀스를 처리하는 데 효과적이기 때문에 많은 최첨단 AI 모델의 기반이 되었습니다. 병렬화가 가능한 특성 덕분에 OpenAI에서 개발한 GPT-3GPT-4와 같이 수십억 개의 매개변수가 포함된 대규모 모델의 학습이 가능해져 제너레이티브 AI의 획기적인 발전으로 이어졌습니다. 이러한 확장성과 성능 덕분에 트랜스포머는 연구 및 산업 전반에서 혁신을 주도하며 다양한 AI 작업의 중심이 되었습니다. BERT와 같은 많은 인기 트랜스포머 모델은 다음과 같은 플랫폼을 통해 쉽게 사용할 수 있습니다. Hugging Face 와 같은 플랫폼을 통해 쉽게 사용할 수 있으며 다음과 같은 프레임워크를 사용하여 구현됩니다. PyTorchTensorFlow와 같은 프레임워크를 사용하여 구현되며, 종종 Ultralytics HUB와 같은 MLOps 플랫폼에 통합됩니다.

AI 및 ML 분야의 애플리케이션

트랜스포머는 매우 다재다능하며 수많은 AI 애플리케이션을 구동합니다:

트랜스포머와 다른 아키텍처 비교

트랜스포머를 다른 일반적인 신경망 아키텍처와 구별하는 것이 도움이 됩니다:

  • 트랜스포머와 RNN 비교: RNN은 데이터를 순차적으로 처리하므로 시계열 데이터에 적합하지만, 긴 시퀀스에서 이전 정보를 잊어버리는 경향이 있습니다(소실 그라데이션 문제). 트랜스포머는 자기 주의를 사용해 시퀀스를 병렬로 처리하므로 장거리 종속성을 더 효과적으로 포착하고 병렬 하드웨어(GPU)에서 더 빠르게 훈련합니다.
  • 트랜스포머와 CNN 비교: CNN은 컨볼루션 필터를 사용하여 격자형 데이터(예: 이미지의 픽셀)에서 국부적인 패턴을 식별하는 데 탁월합니다. 다음과 같은 많은 비전 작업에 매우 효율적입니다. Ultralytics YOLO 모델과 같은 많은 비전 작업에 매우 효율적입니다. 트랜스포머, 특히 ViT는 이미지를 패치로 나누고 자체 주의를 사용하여 패치 간의 관계를 모델링함으로써 잠재적으로 더 나은 글로벌 컨텍스트를 캡처하지만, 특히 모델 학습 중에 더 많은 데이터와 컴퓨팅 리소스를 필요로 하는 경우가 많습니다. 하이브리드 아키텍처는 일부 RT-DETR 변형에서 볼 수 있듯이 CNN 기능과 트랜스포머 레이어를 결합하여 두 가지의 강점을 모두 활용하는 것을 목표로 합니다. 선택은 종종 특정 작업, 데이터 세트 크기, 사용 가능한 컴퓨팅 리소스에 따라 달라집니다.
모두 보기