用語集

GELU（ガウス誤差リニアユニット）

GELU活性化関数がGPT-4のような変圧器モデルをどのように強化し、勾配フロー、安定性、効率を向上させるかをご覧ください。

GELU（Gaussian Error Linear Unit）は高性能な活性化関数で、最先端のニューラルネットワークアーキテクチャ、特にTransformerモデルの標準となっている。滑らかで非単調な曲線で知られ、旧来の関数よりも複雑なパターンを効果的に学習できる。論文「Gaussian Error Linear Units (GELUs)」で紹介されたこの関数は、ドロップアウトや ReLUのような他の関数の特性を組み合わせ、学習の安定性とモデルのパフォーマンスを向上させる。

GELUの仕組み

すべての負の値を鋭くカットするReLUとは異なり、GELUはその大きさに基づいて入力を重み付けする。標準的なガウス分布の累積分布関数（CDF）を入力に乗じることで、ニューロンを活性化するかどうかを確率的に決定する。これは、入力が負になるほど「脱落」（ゼロに設定）する可能性が高くなることを意味するが、その遷移は突然ではなく滑らかである。この確率的正則化の特性は、消失勾配問題のような問題を防ぐのに役立ち、最新の深層学習モデルにとって重要な、より豊かなデータ表現を可能にする。

GELUと他の活性化機能の比較

GELUは、他の一般的な活性化関数と比較していくつかの利点があるため、広く採用されている。

GELUとReLUの比較：主な違いはGELUの滑らかさである。ReLUは計算が簡単な反面、ゼロ点でのコーナーが鋭く、ニューロンが永久に活動しなくなる「死にゆくReLU」問題につながることがある。GELUの滑らかな曲線はこの問題を回避し、より安定した勾配下降を容易にし、しばしば最終的な精度を向上させる。
GELU対Leaky ReLU： Leaky ReLUは、負の入力に対して小さな負の勾配を許容することで、瀕死のReLU問題を解決しようとしている。しかし、GELUの非線形で曲線的な性質は、よりダイナミックな活性化範囲を提供し、多くの深層学習タスクにおいてLeaky ReLUを上回ることが示されている。
GELUとSiLU（スウィッシュ）の比較： Swishとしても知られるSiLU（Sigmoid Linear Unit）は、GELUと非常によく似ている。どちらも滑らかな非単調関数で、優れた性能を示しています。SiLUとGELUのどちらを選択するかは、特定のアーキテクチャとデータセットに対する経験的なテストに帰着することが多いのですが、いくつかの研究では、特定のコンピュータビジョンモデルではSiLUの方が若干効率的であることが示唆されています。Ultralytics YOLOのようなモデルは、性能と効率のバランスからSiLUを利用することが多い。

AIとディープラーニングの応用

GELUは、現在までに開発された最も強力なAIモデルの多くで重要な構成要素となっている。

自然言語処理（NLP）：GELUは、Transformerアーキテクチャのフィード・フォワード・ネットワークにおける標準的な活性化関数である。これには、BERTや GPTシリーズのような代表的なモデルが含まれ、ほぼすべての最新の大規模言語モデル（LLM）の基礎となっている。複雑な言語パターンを扱うことができるため、機械翻訳やテキスト要約などのタスクに最適です。これらのモデルについては、Hugging Faceのような組織のリソースをご覧ください。
コンピュータ・ビジョン（CV）：NLPでの成功を受けて、GELUはVision Transformer（ViT）モデルに採用された。これらのモデルは、画像分類や物体検出のようなタスクのために、画像パッチにTransformerアーキテクチャを適用する。ViTの性能は、視覚情報の処理におけるGELUの有効性を実証し、従来の畳み込みニューラルネットワーク（CNN）の優位性に挑戦している。

実装と使用

GELUは主要なディープラーニングフレームワークですぐに利用できるため、カスタムモデルに組み込むのも簡単だ。

PyTorch： として実施された。 torch.nn.GELUに詳細な情報が掲載されている。 PyTorch GELU公式ドキュメント.
TensorFlow： として利用可能 tf.keras.activations.geluで文書化されている。 TensorFlow API ドキュメント.

開発者は、Ultralytics HUBのようなプラットフォームでGELUを使ってモデルを構築、トレーニング、デプロイすることができ、データ増強から最終的なモデルデプロイまで MLOpsライフサイクル全体を効率化することができる。

GELU（ガウス誤差リニアユニット）

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

Ultralytics YOLOでAIモデルを数秒でトレーニング

Ultralytics HUBでYOLOモデルを簡単にトレーニング

GELUの仕組み

GELUと他の活性化機能の比較

AIとディープラーニングの応用

実装と使用

このカテゴリの続きを読む

アディティブ・マニュファクチャリングを理解する技術と使用例

Ultralytics YOLO11による空港地上業務のモニタリング

製造業におけるロボティクスの進化と未来

Ultralyticsコミュニティに参加する