용어집

전문가 혼합(MoE)

자연어 처리, 비전, 로보틱스 등을 위한 확장 가능하고 효율적인 모델을 지원하는 혁신적인 AI 아키텍처인 전문가 혼합(MoE)에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

전문가 혼합(MoE)은 "분할 및 정복" 원칙에 기반한 머신 러닝(ML) 기법입니다. MoE 아키텍처는 모든 유형의 데이터나 작업을 처리하기 위해 하나의 큰 모놀리식 모델을 사용하는 대신 "전문가"라고 하는 여러 개의 작고 전문화된 하위 모델을 사용합니다. 게이팅 메커니즘은 주어진 입력을 처리하는 데 가장 적합한 전문가를 결정하고, 선택된 전문가만 활성화합니다. 이 접근 방식을 사용하면 특정 입력에 전체 모델 매개변수의 일부만 사용되므로 추론 중에 계산 비용을 관리 가능한 수준으로 유지하면서 매개변수 수 측면에서 모델을 크게 확장할 수 있습니다.

전문가 혼합의 작동 방식

MoE 모델은 일반적으로 두 가지 주요 구성 요소로 이루어져 있습니다:

  1. 전문가 네트워크: 전문가 네트워크는 동일하거나 유사한 아키텍처를 가진 여러 개의 신경망(NN)으로, 각각 더 큰 문제 공간 내에서 특정 유형의 데이터나 하위 작업을 능숙하게 처리하도록 훈련받습니다. 예를 들어, 자연어 처리(NLP)에서는 여러 전문가가 언어 또는 지식 영역의 여러 측면을 전문적으로 다룰 수 있습니다.
  2. 게이팅 네트워크(라우터): 일반적으로 더 작고 빠른 또 다른 신경망으로, 입력 데이터를 분석하고 어떤 전문가가 데이터를 처리할지 결정합니다. 주어진 입력에 대한 각 전문가의 관련성 또는 기여도를 나타내는 가중치를 출력합니다. 많은 최신 구현, 특히 희소 MoE 모델에서 게이팅 네트워크는 활성화할 전문가를 소수의 전문가(예: 상위 k)만 선택합니다.

MoE 계층의 최종 출력은 게이팅 네트워크에서 제공하는 가중치에 따라 활성화된 전문가들의 출력에 가중치를 부여한 조합인 경우가 많습니다. 이러한 선택적 활성화, 즉 '희소 활성화'는 MoE가 제공하는 효율성 향상의 핵심입니다.

MoE의 이점

MoE 아키텍처는 특히 초대형 모델의 경우 몇 가지 중요한 이점을 제공합니다:

  • 계산 효율성: 각 입력 토큰 또는 데이터 포인트에 대해 전문가 하위 집합만 활성화함으로써 MoE 모델은 모든 계산에 모든 파라미터를 사용하는 비슷한 크기의 고밀도 모델에 비해 계산 부하(FLOPs)를 크게 줄일 수 있습니다. 따라서 학습 속도가 빨라지고 추론 대기 시간이 단축됩니다.
  • 확장성: MoE를 사용하면 추론당 계산 비용이 비례적으로 증가하지 않고도 매우 많은 수의 매개변수(경우에 따라 수조 개)가 포함된 모델을 생성할 수 있습니다. 이는 딥 러닝(DL)의 경계를 넓히는 데 매우 중요합니다. 모델 확장성 개념을 살펴보세요.
  • 성능: 전문화를 통해 전문가는 각자의 영역에서 고도로 숙련되어 단일 고밀도 모델에 비해 복잡한 작업에서 전반적인 모델 정확도와 성능이 향상될 수 있습니다. 효과적인 훈련을 위해서는 신중한 하이퍼파라미터 튜닝이 필요한 경우가 많습니다.

MoE와 관련 개념

MoE를 다른 기술과 차별화하는 것이 중요합니다:

  • 앙상블 방법: 둘 다 여러 모델을 사용하지만, 앙상블은 일반적으로 여러 개의 독립 모델(종종 밀도가 높은 모델)을 학습시키고 예측을 결합(예: 평균화)합니다. 앙상블의 모든 모델은 일반적으로 모든 입력을 처리합니다. 반면, MoE는 하나의 큰 모델 내에서 전문화된 부분을 포함하며 입력당 하나의 하위 집합만 활성화됩니다.
  • 고밀도 모델: 표준 트랜스포머컨볼루션 신경망(CNN) 을 포함한 기존 신경망: 다음에서 사용되는 것과 같이 Ultralytics YOLO 모델과 같은 전통적인 신경망은 종종 "밀도"가 높습니다. 즉, 대부분의 또는 모든 매개변수(모델 가중치)가 모든 입력을 처리하는 데 관여합니다. MoE는 이러한 계산 부담을 줄이기 위해 희소성을 도입했습니다.

실제 애플리케이션

MoE는 특히 최첨단 대형 모델에서 상당한 채택률을 보이고 있습니다:

  1. 대규모 언어 모델(LLM): 가장 눈에 띄는 응용 분야입니다. Google GShardSwitch Transformers와 같은 모델과 Mistral AI의 Mixtral 시리즈와 같은 오픈 소스 모델은 Transformer 아키텍처 내에 MoE 레이어를 통합합니다. 이를 통해 동일한 고밀도 모델에 비해 더 빠른 추론 속도로 고성능을 달성할 수 있습니다. 이러한 모델은 텍스트 생성질문 답변과 같은 작업에 탁월합니다.
  2. 컴퓨터 비전(CV): NLP보다는 덜 일반적이지만, 비전 모델에서 MoE가 탐구되고 있습니다. 연구에 따르면 전문가가 다양한 시각적 특징(예: 질감, 모양, 특정 물체 범주)을 인식하거나 다양한 이미지 조건을 처리하는 데 특화함으로써 이미지 분류물체 감지와 같은 작업에 잠재적인 이점을 제공할 수 있다고 합니다. 이는 다음과 같이 고도로 최적화된 고밀도 비전 모델과는 대조적입니다. YOLO11와 같이 드문드문 활성화가 아닌 아키텍처 설계를 통해 효율성을 달성하는 것과는 대조적입니다. 비전 트랜스포머(ViT) 는 MoE가 적용될 수 있는 또 다른 영역입니다. Ultralytics HUB와 같은 플랫폼을 사용하여 비전 모델을 관리하고 훈련할 수 있습니다.

도전 과제 및 고려 사항

MoE 모델을 효과적으로 구현하고 교육하려면 전문가 간 균형 잡힌 부하 보장(일부 전문가의 과잉/과소 활용 방지), 분산된 교육 환경에서 통신 오버헤드 관리( PyTorchTensorFlow), 트레이닝 프로세스의 복잡성 증가 등이 있습니다. 모델 배포 옵션에 대한 신중한 고려도 필요합니다.

모두 보기