用語集

専門家の混合(MoE)

Mixture of Experts(MoE)は、NLP、ビジョン、ロボット工学などのためのスケーラブルで効率的なモデルを可能にする画期的なAIアーキテクチャです。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Mixture of Experts(MoE)は、「分割と征服」の原則に基づく機械学習(ML)手法である。MoEアーキテクチャは、あらゆる種類のデータやタスクを処理するために単一の大きなモノリシックモデルを使用する代わりに、"エキスパート "と呼ばれる複数の小さな、専門化されたサブモデルを採用する。ゲーティングメカニズムは、与えられた入力を処理するのに最も適したエキスパートを決定し、選択されたエキスパートだけをアクティブにする。このアプローチにより、推論中の計算コストを管理可能なレベルに保ちながら、モデルのパラメータ数を大幅に拡張することができます。

ミックス・オブ・エキスパートの仕組み

MoEモデルは通常、2つの主要コンポーネントで構成される:

  1. エキスパートネットワーク:これは複数のニューラルネットワーク(NN)であり、多くの場合、同一または類似のアーキテクチャを持ち、それぞれがより大きな問題空間の中で特定の種類のデータやサブタスクの処理に習熟するように訓練される。例えば、自然言語処理(NLP)では、異なるエキスパートが言語や知識ドメインの異なる側面に特化するかもしれない。
  2. ゲーティング・ネットワーク(ルーター):入力データを分析し、どの専門家が処理すべきかを決定する。与えられた入力に対する各エキスパートの関連性や貢献度を示す重みを出力する。最近の多くの実装、特に疎な MoE モデルでは、ゲーティングネットワークは少数のエキスパート(例えば上位 k 名)だけを選択してアクティブにします。

MoE層の最終的な出力は、多くの場合、ゲーティング・ネットワークが提供する重みに基づいて、活性化されたエキスパートからの出力を重み付きで組み合わせたものである。この選択的活性化、つまり「スパース活性化」は、MoEが提供する効率向上の鍵である。

MoEのメリット

MoEアーキテクチャは、特に非常に大きなモデルに対して、いくつかの大きな利点を提供する:

  • 計算効率:各入力トークンまたはデータポイントに対してエキスパートのサブセットのみをアクティブにすることで、MoEモデルは、すべてのパラメータがすべての計算に使用される同規模の密なモデルと比較して、計算負荷(FLOPs)を大幅に削減することができます。これにより、学習が高速化され、推論の待ち時間が短縮されます。
  • スケーラビリティ:MoEは、推論あたりの計算コストを比例して増加させることなく、非常に多くのパラメータ(場合によっては数兆)を持つモデルの作成を可能にする。これは、深層学習(DL)の限界を押し広げるために極めて重要です。モデルのスケーラビリティの概念を探る
  • パフォーマンス:専門化により、専門家はそれぞれのドメインに高度に精通するようになり、単一の高密度なモデルと比較して、複雑なタスクに対する全体的なモデルの精度とパフォーマンスが向上する可能性がある。効果的なトレーニングには、しばしば注意深いハイパーパラメータのチューニングが必要です。

MoEと関連コンセプトの比較

MoEを他の技術と区別することは重要だ:

  • アンサンブル手法どちらも複数のモデルを使用するが、アンサンブルは通常、複数の独立したモデル(多くの場合、高密度)を訓練し、それらの予測値を(平均化するなどして)組み合わせる。通常、アンサンブル内のすべてのモデルがすべての入力を処理する。対照的に、MoEは単一の大きなモデル内の特化された部分を含み、入力ごとにサブセットのみが活性化される。
  • 密なモデル:標準的なトランスフォーマーや CNN(畳み込みニューラルネットワーク)を含む、従来のニューラルネットワークUltralytics YOLOモデルで使用されているような標準的な変換器(Transformer)、畳み込みニューラルネットワーク(Convolution Neural Network:CNN)を含む従来のニューラルネットワークは、しばしば "高密度 "です。これは、ほとんどまたはすべてのパラメータ(モデルの重み)が、すべての入力の処理に関与していることを意味します。MoEは、この計算負荷を軽減するためにスパース性を導入しています。

実世界での応用

MoEは、特に最新鋭の大型モデルで大きな採用実績がある:

  1. 大規模言語モデル(LLM)これは最も顕著な応用分野である。GoogleGShardや Switch Transformersのようなモデルや、Mistral AIのMixtralシリーズのようなオープンソースのモデルは、TransformerアーキテクチャにMoEレイヤーを組み込んでいる。これにより、同様に大規模な高密度モデルと比較して、より高速な推論速度で高い性能を達成することができる。これらのモデルは、テキスト生成や 質問応答などのタスクを得意としています。
  2. コンピュータビジョン(CV)NLPほど一般的ではないが、MoEは視覚モデルで研究されている。画像分類や 物体検出のようなタスクにおいて、異なる視覚的特徴(テクスチャ、形状、特定の物体カテゴリなど)の認識や、異なる画像条件の処理にエキスパートを特化させることで、潜在的なメリットが得られる可能性が研究により示唆されている。これは、以下のような高度に最適化された高密度視覚モデルとは対照的である。 YOLO11のような高度に最適化された密な視覚モデルとは対照的である。ビジョントランスフォーマー(ViT)は、MoEを適用できるもう一つの分野です。Ultralytics HUBのようなプラットフォームを使って、ビジョンモデルを管理・訓練することができます。

課題と考察

MoEモデルの効果的な実装とトレーニングには、エキスパート間でバランスの取れた負荷の確保(一部のエキスパートが過不足なく利用されることの防止)、分散トレーニング環境における通信オーバーヘッドの管理(以下のようなフレームワークに見られる)といった課題があります。 PyTorchTensorFlowやTensorFlowのようなフレームワークで見られるような)分散学習環境における通信オーバーヘッドの管理、および学習プロセスにおける複雑性の増大が挙げられる。モデルのデプロイメントオプションを慎重に検討することも必要である。

すべて読む