了解 GELU 激活函数如何增强 GPT-4 等变压器模型,提高梯度流、稳定性和效率。
高斯误差线性单元(Gaussian Error Linear Unit,简称 GELU)是一种高性能激活函数,广泛应用于现代神经网络(NN),尤其是变压器模型。GELU 在丹-亨德里克斯(DanHendrycks)和凯文-金佩尔(Kevin Gimpel)的论文"高斯误差线性单元( GELUs)"中提出,它引入了神经元激活的概率方法,不同于ReLU 等函数的确定性。它根据输入量的大小进行加权,而不仅仅是根据符号进行门控,有效地结合了 dropout、zoneout 和 ReLU 的特性。
GELU 通过将输入值乘以应用于该输入的标准高斯累积分布函数 (CDF)的值来确定神经元的输出。这意味着激活是随机的,取决于输入值本身。与锐减负值的 ReLU 不同,GELU 提供了更平滑的曲线。幅度较大的输入值更有可能被保留,而接近零的输入值则更有可能被清零。这种平滑的概率加权允许在反向传播过程中获得更丰富的表征和潜在的更好梯度流,这对训练深度网络至关重要。
与其他常见的激活函数相比,GELU 具有鲜明的特点:
由于其强大的经验性能,GELU 已成为许多高级深度学习模型的热门选择:
该函数能够提供平滑的非线性,并将输入大小纳入激活决策,因此在训练深度网络时非常有效。虽然它的计算量比 ReLU 稍大,但它的性能优势往往能证明在大规模模型中使用它是正确的。 PyTorch和 TensorFlow.您可以使用Ultralytics HUB 等工具探索各种模型并对其进行训练。