전문가 혼합(MoE)은 "분할 및 정복" 원칙에 기반한 머신 러닝(ML) 기법입니다. MoE 아키텍처는 모든 유형의 데이터나 작업을 처리하기 위해 하나의 큰 모놀리식 모델을 사용하는 대신 "전문가"라고 하는 여러 개의 작고 전문화된 하위 모델을 사용합니다. 게이팅 메커니즘은 주어진 입력을 처리하는 데 가장 적합한 전문가를 결정하고, 선택된 전문가만 활성화합니다. 이 접근 방식을 사용하면 특정 입력에 전체 모델 매개변수의 일부만 사용되므로 추론 중에 계산 비용을 관리 가능한 수준으로 유지하면서 매개변수 수 측면에서 모델을 크게 확장할 수 있습니다.
전문가 혼합의 작동 방식
MoE 모델은 일반적으로 두 가지 주요 구성 요소로 이루어져 있습니다:
- 전문가 네트워크: 전문가 네트워크는 동일하거나 유사한 아키텍처를 가진 여러 개의 신경망(NN)으로, 각각 더 큰 문제 공간 내에서 특정 유형의 데이터나 하위 작업을 능숙하게 처리하도록 훈련받습니다. 예를 들어, 자연어 처리(NLP)에서는 여러 전문가가 언어 또는 지식 영역의 여러 측면을 전문적으로 다룰 수 있습니다.
- 게이팅 네트워크(라우터): 일반적으로 더 작고 빠른 또 다른 신경망으로, 입력 데이터를 분석하고 어떤 전문가가 데이터를 처리할지 결정합니다. 주어진 입력에 대한 각 전문가의 관련성 또는 기여도를 나타내는 가중치를 출력합니다. 많은 최신 구현, 특히 희소 MoE 모델에서 게이팅 네트워크는 활성화할 전문가를 소수의 전문가(예: 상위 k)만 선택합니다.
MoE 계층의 최종 출력은 게이팅 네트워크에서 제공하는 가중치에 따라 활성화된 전문가들의 출력에 가중치를 부여한 조합인 경우가 많습니다. 이러한 선택적 활성화, 즉 '희소 활성화'는 MoE가 제공하는 효율성 향상의 핵심입니다.
MoE의 이점
MoE 아키텍처는 특히 초대형 모델의 경우 몇 가지 중요한 이점을 제공합니다:
- 계산 효율성: 각 입력 토큰 또는 데이터 포인트에 대해 전문가 하위 집합만 활성화함으로써 MoE 모델은 모든 계산에 모든 파라미터를 사용하는 비슷한 크기의 고밀도 모델에 비해 계산 부하(FLOPs)를 크게 줄일 수 있습니다. 따라서 학습 속도가 빨라지고 추론 대기 시간이 단축됩니다.
- 확장성: MoE를 사용하면 추론당 계산 비용이 비례적으로 증가하지 않고도 매우 많은 수의 매개변수(경우에 따라 수조 개)가 포함된 모델을 생성할 수 있습니다. 이는 딥 러닝(DL)의 경계를 넓히는 데 매우 중요합니다. 모델 확장성 개념을 살펴보세요.
- 성능: 전문화를 통해 전문가는 각자의 영역에서 고도로 숙련되어 단일 고밀도 모델에 비해 복잡한 작업에서 전반적인 모델 정확도와 성능이 향상될 수 있습니다. 효과적인 훈련을 위해서는 신중한 하이퍼파라미터 튜닝이 필요한 경우가 많습니다.
MoE와 관련 개념
MoE를 다른 기술과 차별화하는 것이 중요합니다:
- 앙상블 방법: 둘 다 여러 모델을 사용하지만, 앙상블은 일반적으로 여러 개의 독립 모델(종종 밀도가 높은 모델)을 학습시키고 예측을 결합(예: 평균화)합니다. 앙상블의 모든 모델은 일반적으로 모든 입력을 처리합니다. 반면, MoE는 하나의 큰 모델 내에서 전문화된 부분을 포함하며 입력당 하나의 하위 집합만 활성화됩니다.
- 고밀도 모델: 표준 트랜스포머 및 컨볼루션 신경망(CNN) 을 포함한 기존 신경망: 다음에서 사용되는 것과 같이 Ultralytics YOLO 모델과 같은 전통적인 신경망은 종종 "밀도"가 높습니다. 즉, 대부분의 또는 모든 매개변수(모델 가중치)가 모든 입력을 처리하는 데 관여합니다. MoE는 이러한 계산 부담을 줄이기 위해 희소성을 도입했습니다.