术语表

GELU(高斯误差线性单位)

了解 GELU 激活函数如何增强 GPT-4 等变压器模型,提高梯度流、稳定性和效率。

GELU(高斯误差线性单元)是一种高性能激活函数,已成为最先进神经网络架构的标准,尤其是Transformer模型。它以平滑、非单调曲线著称,与旧函数相比,能帮助模型更有效地学习复杂模式。高斯误差线性单元(GELUs)"一文中介绍了该函数,它结合了其他函数(如dropoutReLU的特性,提高了训练稳定性和模型性能。

GELU 如何工作

ReLU 会截断所有负值,而 GELU 则不同,它会根据输入值的大小对其进行加权。它通过将输入乘以标准高斯分布的累积分布函数(CDF),以概率方式决定是否激活神经元。这意味着输入的负值越大,就越有可能被 "丢弃"(设为零),但这种转变是平滑而非突然的。这种随机正则化特性有助于防止梯度消失等问题,并允许更丰富的数据表示,这对现代深度学习模型至关重要。

GELU 与其他激活功能的比较

与其他流行的激活函数相比,GELU 具有多项优势,因此被广泛采用。

  • GELU 与 ReLU主要区别在于 GELU 的平滑性。虽然 ReLU 计算简单,但它在零点的尖角有时会导致 "垂死 ReLU "问题,即神经元永久不活动。GELU 的平滑曲线避免了这一问题,有利于更稳定的梯度下降,往往能带来更好的最终精度
  • GELU 与 Leaky ReLU Leaky ReLU试图通过允许负输入的小负斜率来解决垂死 ReLU 问题。然而,GELU 的非线性、曲线性质提供了更动态的激活范围,在许多深度学习任务中,GELU 的表现都优于 Leaky ReLU。
  • GELU 与 SiLU(Swish) Sigmoid Linear Unit(SiLU),又称 Swish,与 GELU 非常相似。两者都是平滑的非单调函数,都表现出卓越的性能。虽然一些研究表明 SiLU 在某些计算机视觉模型中可能略微更有效率,但它们之间的选择往往取决于对特定架构和数据集的经验测试。Ultralytics YOLO等模型通常使用 SiLU,以兼顾性能和效率。

人工智能和深度学习的应用

GELU 是迄今为止开发的许多最强大的人工智能模型的关键组成部分。

实施和使用

GELU 在所有主要的深度学习框架中均可使用,因此很容易将其纳入定制模型中。

开发人员可以通过Ultralytics HUB 等平台使用 GELU 构建、训练和部署模型,从而简化从数据扩充最终模型部署的整个MLOps生命周期。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板