GELU活性化関数がGPT-4のような変圧器モデルをどのように強化し、勾配フロー、安定性、効率を向上させるかをご覧ください。
ガウス誤差リニアユニット(GELU)は、最新のニューラルネットワーク(NN)、特に変圧器モデルで広く使われている高性能活性化関数である。Dan HendrycksとKevin Gimpelによる論文"Gaussian Error Linear Units (GELUs)"で提案されたGELUは、ReLUのような決定論的な関数とは異なり、ニューロンの活性化に確率的なアプローチを導入している。単に符号でゲーティングするのではなく、その大きさに基づいて入力を重み付けし、ドロップアウト、ゾーンアウト、ReLUの特性を効果的に組み合わせている。
GELU は、入力値にその入力に適用される標準ガウス累積分布関数(CDF)の値を乗じる ことによってニューロンの出力を決定する。つまり、活性化は確率的で、入力値そのものに依存する。負の値を鋭くカットオフするReLUとは異なり、GELUはより滑らかな曲線を提供する。大きい入力は保存される可能性が高く、ゼロに近い入力はゼロにされる可能性が高い。この滑らかで確率的な重み付けにより、より豊かな表現が可能になり、ディープネットワークの訓練に重要なバックプロパゲーション中の勾配の流れが改善される可能性がある。
GELUは、他の一般的な活性化関数と比較して明確な特徴を持つ:
GELUは、その強力な経験的性能により、多くの高度な深層学習モデルでよく使われるようになっている:
この関数は、滑らかな非線形性を提供し、活性化の決定に入力の大きさを組み込む能力により、ディープネットワークの学習に効果的である。ReLUよりも若干計算量が多いものの、その性能上の利点から、以下のようなフレームワークで利用可能な大規模モデルでの利用が正当化されることが多い。 PyTorchや TensorFlow.Ultralytics HUBのようなツールを使って、様々なモデルを探索し、トレーニングすることができます。