GELU活性化関数がGPT-4のような変圧器モデルをどのように強化し、勾配フロー、安定性、効率を向上させるかをご覧ください。
GELU(Gaussian Error Linear Unit)は高性能な活性化関数で、最先端のニューラルネットワークアーキテクチャ、特にTransformerモデルの標準となっている。滑らかで非単調な曲線で知られ、旧来の関数よりも複雑なパターンを効果的に学習できる。論文「Gaussian Error Linear Units (GELUs)」で紹介されたこの関数は、ドロップアウトや ReLUのような他の関数の特性を組み合わせ、学習の安定性とモデルのパフォーマンスを向上させる。
すべての負の値を鋭くカットするReLUとは異なり、GELUはその大きさに基づいて入力を重み付けする。標準的なガウス分布の累積分布関数(CDF)を入力に乗じることで、ニューロンを活性化するかどうかを確率的に決定する。これは、入力が負になるほど「脱落」(ゼロに設定)する可能性が高くなることを意味するが、その遷移は突然ではなく滑らかである。この確率的正則化の特性は、消失勾配問題のような問題を防ぐのに役立ち、最新の深層学習モデルにとって重要な、より豊かなデータ表現を可能にする。
GELUは、他の一般的な活性化関数と比較していくつかの利点があるため、広く採用されている。
GELUは、現在までに開発された最も強力なAIモデルの多くで重要な構成要素となっている。
GELUは主要なディープラーニングフレームワークですぐに利用できるため、カスタムモデルに組み込むのも簡単だ。
torch.nn.GELU
に詳細な情報が掲載されている。 PyTorch GELU公式ドキュメント.tf.keras.activations.gelu
で文書化されている。 TensorFlow API ドキュメント.開発者は、Ultralytics HUBのようなプラットフォームでGELUを使ってモデルを構築、トレーニング、デプロイすることができ、データ増強から 最終的なモデルデプロイまで MLOpsライフサイクル全体を効率化することができる。