GELU活性化関数がGPT-4のような変圧器モデルをどのように強化し、勾配フロー、安定性、効率を向上させるかをご覧ください。
GELU(Gaussian Error Linear Unit)は、現代のニューラルネットワーク、特にトランスフォーマーアーキテクチャで一般的に使用されている活性化関数の一種である。Dan HendrycksとKevin Gimpelが論文「Gaussian Error Linear Units (GELUs)」で提案したもので、ドロップアウト、ゾーンアウト、ReLU(Rectified Linear Unit)の特性を組み合わせて、モデルの性能を向上させることを目的としています。負の値を鋭くカットするReLUとは異なり、GELUは、符号だけでなく大きさに基づいて入力に重み付けを行い、より滑らかな曲線を提供する。
GELU 関数は入力の値に基づいて入力を調節し、効果的にニューロンを「活性化」す るかどうかを決定する。GELU関数は、入力に標準的なガウス累積分布関数(CDF)の値を掛ける。直感的には、これはゼロから遠い入力(正も負も)は保存される可能性が高く、ゼロに近い入力はゼロにされる可能性が高いことを意味する。この確率的アプローチは、ドロップアウトに似た確率的正則化の形式を導入するが、入力値自体によって決定されるため、データのより複雑なパターンを捉えることができる非線形関数につながる。
GELUは単純な活性化関数よりも優れており、最先端のモデルに採用されている:
GELUは、その強力な経験的性能により、多くの高度な深層学習モデルでよく使われるようになっている:
この関数は、滑らかな非線形性を提供し、活性化の決定に入力の大きさを組み込む能力により、ディープネットワークの学習に効果的である。ReLUよりも若干計算量が多いものの、その性能上の利点から、以下のようなフレームワークで利用可能な大規模モデルでの利用が正当化されることが多い。 PyTorchや TensorFlow.