术语表

ReLU(整流线性单元)

探索 ReLU 的强大功能,ReLU 是深度学习中的一个关键激活函数,可帮助高效神经网络学习人工智能和 ML 的复杂模式。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

ReLU,即整流线性单元,是深度学习(DL)和神经网络领域的基石激活函数。它的广泛应用源于其显著的简单性和计算效率,这大大有助于神经网络从海量数据中学习复杂的模式。通过引入非线性,ReLU 使网络能够模拟错综复杂的关系,使其成为现代人工智能(AI)和机器学习(ML)应用中不可或缺的工具,包括使用以下框架开发的应用 PyTorchTensorFlow.

Relu 如何工作

ReLU 函数的核心操作非常简单:如果输入值为正,则直接输出输入值;如果输入值为负或零,则输出零。这种简单的阈值机制为神经网络(NN)引入了基本的非线性。在网络层中,每个神经元都对其加权输入总和应用 ReLU 函数。如果总和为正,神经元就会 "触发 "并将数值向前传递。如果总和为负,神经元的输出为零,实际上对该特定输入不起作用。这将导致稀疏激活,即在任何给定时间内只有神经元子集处于激活状态,从而提高计算效率,并帮助网络学习更稳健的特征表征

Relu 的优势

ReLU 具有几个关键优势,使其在深度学习领域大受欢迎:

  • 计算简单:与 sigmoid 或 tanh 等函数相比,max(0, x) 运算的计算成本非常低,从而加快了训练和推理过程。
  • 稀疏激活:通过将负输入设置为零,ReLU 鼓励网络激活的稀疏性。正如稀疏编码研究中所解释的那样,这可以带来更高效的模型和潜在的更好的泛化效果。
  • 缓解梯度消失问题:sigmoid 和 tanh 函数在输入大量正或负数据时会达到饱和,从而导致深度网络中的梯度消失问题,而 ReLU 的梯度则不同,它的梯度要么为 0,要么为 1(输入正数据时)。这种恒定梯度有助于梯度在反向传播过程中更好地流动,从而促进深度网络的训练。

缺点和挑战

尽管 ReLU 有其优势,但也并非没有局限性:

  • 垂死 ReLU 问题:神经元有时会陷入一种状态,即在训练过程中遇到任何输入时,神经元的输出总是为零。如果大量的梯度更新导致权重移动,神经元的输入总和总是负值,就会出现这种情况。一旦出现这种情况,流经该神经元的梯度就会变为零,从而阻止任何进一步的权重更新,并有效地 "杀死 "该神经元。
  • 非零居中输出:ReLU 的输出总是非负的。与以零为中心的激活函数(如 Tanh)相比,这种不以零为中心的情况会稍微减慢梯度下降的收敛速度。

在 Ai 和 Ml 中的应用

ReLU 是一种重要的激活函数,在用于计算机视觉(CV 任务的卷积神经网络(CNN)中尤为重要。

  • 物体检测:类似模型 Ultralytics YOLO,包括以下版本 YOLOv8YOLOv10 等版本,经常在卷积层中采用 ReLU 或其变体。这使它们能够有效地处理视觉信息,以识别和定位物体,这对于从自动驾驶汽车到用于质量控制的人工智能制造等应用至关重要。
  • 图像分类:ReLU 是在大型数据集(如ImageNet)上训练的深度 CNN 的基础,可用于将图像归入预定义类别等任务。它处理非线性的能力有助于捕捉图像中的分层特征。
  • 自然语言处理(NLP):虽然 GELU 等激活函数在现代转换器模型中更为常见,但在一些用于机器翻译或文本分类等任务的 NLP 架构的前馈子层中,仍能找到 ReLU 的身影。

Relu 型号

针对 ReLU 的局限性,主要是 "垂死 ReLU "问题,已经开发了几种 ReLU 变体:

  • Leaky ReLU: This variant introduces a small, non-zero slope for negative inputs (e.g., f(x) = 0.01x for x < 0). This small negative slope ensures that neurons never completely die, as there is always some gradient flow, potentially leading to more robust training.
  • 参数 ReLU(PReLU):与 Leaky ReLU 相似,但负输入的斜率是在训练过程中学会的,而不是固定不变的。
  • 指数线性单元(ELU):指数线性单元旨在结合 ReLU 的优点,同时产生更接近零均值的输出,从而加快学习速度。它对负输入有一个很小的负输出,输出会平滑下降。
  • GELU(高斯误差线性单元)高斯误差线性单元通常用于BERT 等变换器模型中,它根据输入的幅度加权,而不只是根据符号选通,从而提供更平滑的激活曲线。

虽然这些变体可以在特定场景中提供优势,但标准 ReLU 仍然是一个强大的基准,因为它简单易用,而且在广泛的深度学习任务中证明了其有效性。通过Ultralytics HUB 等平台,您可以使用各种激活函数轻松管理和训练模型。

阅读全部