术语表

GELU（高斯误差线性单位）

了解 GELU 激活函数如何增强 GPT-4 等变压器模型，提高梯度流、稳定性和效率。

GELU（高斯误差线性单元）是一种高性能激活函数，已成为最先进神经网络架构的标准，尤其是Transformer模型。它以平滑、非单调曲线著称，与旧函数相比，能帮助模型更有效地学习复杂模式。高斯误差线性单元（GELUs）"一文中介绍了该函数，它结合了其他函数（如dropout和ReLU ）的特性，提高了训练稳定性和模型性能。

GELU 如何工作

ReLU 会截断所有负值，而 GELU 则不同，它会根据输入值的大小对其进行加权。它通过将输入乘以标准高斯分布的累积分布函数（CDF），以概率方式决定是否激活神经元。这意味着输入的负值越大，就越有可能被 "丢弃"（设为零），但这种转变是平滑而非突然的。这种随机正则化特性有助于防止梯度消失等问题，并允许更丰富的数据表示，这对现代深度学习模型至关重要。

GELU 与其他激活功能的比较

与其他流行的激活函数相比，GELU 具有多项优势，因此被广泛采用。

GELU 与 ReLU：主要区别在于 GELU 的平滑性。虽然 ReLU 计算简单，但它在零点的尖角有时会导致 "垂死 ReLU "问题，即神经元永久不活动。GELU 的平滑曲线避免了这一问题，有利于更稳定的梯度下降，往往能带来更好的最终精度。
GELU 与 Leaky ReLU： Leaky ReLU试图通过允许负输入的小负斜率来解决垂死 ReLU 问题。然而，GELU 的非线性、曲线性质提供了更动态的激活范围，在许多深度学习任务中，GELU 的表现都优于 Leaky ReLU。
GELU 与 SiLU（Swish）： Sigmoid Linear Unit（SiLU），又称 Swish，与 GELU 非常相似。两者都是平滑的非单调函数，都表现出卓越的性能。虽然一些研究表明 SiLU 在某些计算机视觉模型中可能略微更有效率，但它们之间的选择往往取决于对特定架构和数据集的经验测试。Ultralytics YOLO等模型通常使用 SiLU，以兼顾性能和效率。

人工智能和深度学习的应用

GELU 是迄今为止开发的许多最强大的人工智能模型的关键组成部分。

自然语言处理（NLP）：GELU 是Transformer架构前馈网络的标准激活函数。其中包括BERT和GPT 系列等开创性模型，它们是几乎所有现代大型语言模型 (LLM) 的基础。它处理复杂语言模式的能力使其成为机器翻译和文本摘要等任务的理想选择。您可以从Hugging Face 等机构提供的资源中了解有关这些模型的更多信息。
计算机视觉（CV）：继 GELU 在 NLP 领域取得成功后，GELU 又被用于视觉转换器（ViT）模型。这些模型将变换器架构应用于图像补丁，以完成图像分类和物体检测等任务。ViT 的性能证明了 GELU 在处理视觉信息方面的有效性，对传统卷积神经网络（CNN）的主导地位提出了挑战。

实施和使用

GELU 在所有主要的深度学习框架中均可使用，因此很容易将其纳入定制模型中。

PyTorch 作为 torch.nn.GELU详细信息见 PyTorch GELU 官方文档.
TensorFlow 可作为 tf.keras.activations.gelu在 TensorFlow API 文档.

开发人员可以通过Ultralytics HUB 等平台使用 GELU 构建、训练和部署模型，从而简化从数据扩充到最终模型部署的整个MLOps生命周期。

GELU（高斯误差线性单位）

灵活的企业许可解决方案为您的创新提供动力

使用 Ultralytics YOLO 在数秒内训练人工智能模型

使用 Ultralytics HUB 简单训练 YOLO 模型

GELU 如何工作

GELU 与其他激活功能的比较

人工智能和深度学习的应用

实施和使用

在此类别中阅读更多内容

机器人技术在制造业中的发展与未来

利用 Ultralytics YOLO11 加强智能监控

U-Net 架构及其应用指南

加入 Ultralytics 社区