용어집

트랜스포머

Transformer 아키텍처가 어떻게 AI를 혁신하여 NLP, 컴퓨터 비전 및 고급 ML 작업의 획기적인 발전을 지원하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

트랜스포머는 인공 지능 분야, 특히 자연어 처리(NLP)와 컴퓨터 비전 분야에서 혁신을 일으킨 신경망 아키텍처의 일종입니다. 트랜스포머는 자기 주의라는 메커니즘을 사용하여 텍스트와 같은 순차적 데이터를 순환 신경망(RNN)과 같은 이전 아키텍처보다 더 효과적으로 처리하도록 설계되었습니다. 이를 통해 모델은 입력 시퀀스를 처리할 때 여러 부분의 중요도를 평가할 수 있으므로 많은 작업에서 성능이 크게 향상됩니다.

관련성 및 영향력

트랜스포머의 부상은 초기 시퀀스 모델의 한계를 극복한 능력에 기인합니다. 기존의 RNN은 소실 그라데이션과 같은 문제로 인해 긴 시퀀스를 처리하는 데 어려움을 겪었고, 데이터의 장거리 종속성을 포착하기 어려웠습니다. 주의 메커니즘을 갖춘 트랜스포머는 입력 시퀀스의 모든 부분을 병렬로 처리할 수 있어 훈련과 추론 속도가 크게 빨라집니다. 이러한 병렬 처리 기능과 주의 집중의 효과 덕분에 Transform은 다양한 영역에서 최첨단 모델의 근간이 되었습니다. 그 영향력은 고급 NLP 작업 지원부터 컴퓨터 비전 모델 향상에 이르기까지 광범위합니다.

AI 및 ML 분야의 애플리케이션

트랜스포머는 다재다능하며 다양한 AI 및 ML 작업에서 활용되고 있습니다. 다음은 몇 가지 구체적인 예시입니다:

  • 자연어 처리: 가장 눈에 띄는 응용 분야 중 하나는 텍스트 생성, 번역 및 이해에 사용되는 GPT-3GPT-4와 같은 언어 모델입니다. 이러한 모델은 문맥을 이해하고 일관성 있고 문맥과 관련된 텍스트를 생성하는 Transformer 아키텍처의 기능을 활용합니다. 예를 들어 챗봇과 텍스트 요약 도구에 사용됩니다.

  • 객체 감지 및 이미지 세분화: 처음에는 NLP에서 주로 사용되었지만, 트랜스포머는 컴퓨터 비전에서도 점점 더 많이 사용되고 있습니다. 다음과 같은 모델 RT-DETRYOLO-NAS와 같은 모델들은 Transformer 아키텍처를 통합하여 객체 감지이미지 세분화 작업을 개선합니다. 이러한 모델은 이미지 내에서 글로벌 컨텍스트를 캡처하여 보다 정확하고 강력한 비전 시스템으로 이끄는 Transformer의 기능을 활용합니다. Ultralytics YOLO 자체는 지속적으로 발전하고 있으며 미래 모델을 위한 Transformer 기반 백본을 모색하고 있습니다.

주요 개념 및 관련 용어

트랜스포머를 이해하려면 몇 가지 관련 개념을 파악해야 합니다:

  • 자기 주의: 트랜스포머의 핵심 메커니즘으로, 모델이 각 부분을 처리할 때 입력의 여러 부분의 중요도를 평가할 수 있게 해줍니다. 이를 통해 모델은 관련 정보에 집중하여 컨텍스트 이해가 필요한 작업의 성능을 향상시킬 수 있습니다.

  • 인코더-디코더 아키텍처: 많은 트랜스포머 모델은 인코더-디코더 구조를 따릅니다. 인코더는 입력 시퀀스를 처리하고 디코더는 출력 시퀀스를 생성하며, 주의 메커니즘을 통해 이들 사이의 정보 흐름을 촉진합니다.

  • BERT(트랜스포머의 양방향 인코더 표현): 텍스트 문맥을 이해하는 데 주로 사용되는 인기 있는 Transformer 기반 모델입니다. BERT 및 이와 유사한 모델은 많은 최신 NLP 애플리케이션의 기본이며 다음과 같은 플랫폼에서 사용할 수 있습니다. Hugging Face.

  • 비전 트랜스포머(ViT): 이미지 처리 작업에 Transformer 아키텍처를 적용하여 단어 대신 이미지 패치에 자체 주의를 효과적으로 적용합니다. ViT는 이미지 분류 및 기타 비전 작업에서 놀라운 성능을 보여주며 NLP를 뛰어넘는 Transformer의 다용도성을 입증했습니다.

트랜스포머는 복잡한 데이터를 이해하고 생성하는 데 있어 가능성의 한계를 지속적으로 넓혀가며 현대 AI의 초석이 되었으며, 앞으로 다양한 애플리케이션에서 그 영향력이 더욱 커질 것입니다. 모델이 진화함에 따라 인공지능 및 머신 러닝 분야에서 일하는 모든 사람에게 Transformer 아키텍처와 그 기본 원리를 이해하는 것은 여전히 중요합니다.

모두 보기