用語集

GELU(ガウス誤差リニアユニット)

GELU活性化関数がGPT-4のような変圧器モデルをどのように強化し、勾配フロー、安定性、効率を向上させるかをご覧ください。

GELU(Gaussian Error Linear Unit)は高性能な活性化関数で、最先端のニューラルネットワークアーキテクチャ、特にTransformerモデルの標準となっている。滑らかで非単調な曲線で知られ、旧来の関数よりも複雑なパターンを効果的に学習できる。論文「Gaussian Error Linear Units (GELUs)」で紹介されたこの関数は、ドロップアウトや ReLUのような他の関数の特性を組み合わせ、学習の安定性とモデルのパフォーマンスを向上させる。

GELUの仕組み

すべての負の値を鋭くカットするReLUとは異なり、GELUはその大きさに基づいて入力を重み付けする。標準的なガウス分布の累積分布関数(CDF)を入力に乗じることで、ニューロンを活性化するかどうかを確率的に決定する。これは、入力が負になるほど「脱落」(ゼロに設定)する可能性が高くなることを意味するが、その遷移は突然ではなく滑らかである。この確率的正則化の特性は、消失勾配問題のような問題を防ぐのに役立ち、最新の深層学習モデルにとって重要な、より豊かなデータ表現を可能にする。

GELUと他の活性化機能の比較

GELUは、他の一般的な活性化関数と比較していくつかの利点があるため、広く採用されている。

  • GELUとReLUの比較主な違いはGELUの滑らかさである。ReLUは計算が簡単な反面、ゼロ点でのコーナーが鋭く、ニューロンが永久に活動しなくなる「死にゆくReLU」問題につながることがある。GELUの滑らかな曲線はこの問題を回避し、より安定した勾配下降を容易にし、しばしば最終的な精度を向上させる。
  • GELU対Leaky ReLU Leaky ReLUは、負の入力に対して小さな負の勾配を許容することで、瀕死のReLU問題を解決しようとしている。しかし、GELUの非線形で曲線的な性質は、よりダイナミックな活性化範囲を提供し、多くの深層学習タスクにおいてLeaky ReLUを上回ることが示されている。
  • GELUとSiLU(スウィッシュ)の比較 Swishとしても知られるSiLU(Sigmoid Linear Unit)は、GELUと非常によく似ている。どちらも滑らかな非単調関数で、優れた性能を示しています。SiLUとGELUのどちらを選択するかは、特定のアーキテクチャとデータセットに対する経験的なテストに帰着することが多いのですが、いくつかの研究では、特定のコンピュータビジョンモデルではSiLUの方が若干効率的であることが示唆されています。Ultralytics YOLOのようなモデルは、性能と効率のバランスからSiLUを利用することが多い。

AIとディープラーニングの応用

GELUは、現在までに開発された最も強力なAIモデルの多くで重要な構成要素となっている。

実装と使用

GELUは主要なディープラーニングフレームワークですぐに利用できるため、カスタムモデルに組み込むのも簡単だ。

開発者は、Ultralytics HUBのようなプラットフォームでGELUを使ってモデルを構築、トレーニング、デプロイすることができ、データ増強から 最終的なモデルデプロイまで MLOpsライフサイクル全体を効率化することができる。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク