术语表

Leaky ReLU

发现 Leaky ReLU 激活对人工智能和 ML 的强大作用。解决濒临灭绝的 ReLU 问题,提高 CV、NLP、GAN 等模型的性能!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

在人工神经网络领域,激活函数在引入非线性、使模型学习复杂模式方面发挥着至关重要的作用。Leaky ReLU(或 Leaky Rectified Linear Unit)就是这样一种激活函数,是对标准 ReLU 的改进。它解决了一个被称为 "垂死 ReLU "问题的常见问题,提高了深度学习模型的鲁棒性和性能,尤其是在计算机视觉自然语言处理等领域。

了解 Leaky ReLU

Leaky ReLU 函数的设计目的是,当输入为负值时,允许有一个小的、不为零的梯度,这与标准ReLU(整流线性单元)激活函数不同,后者对任何负输入都输出零。这一微妙的修改非常重要,因为它可以防止神经元在训练过程中失去活性或 "死亡"。在标准 ReLU 中,如果神经元的权重更新后,输入持续为负,神经元的输出将为零,梯度也将为零,从而停止进一步学习。Leaky ReLU 允许对负输入进行少量线性输出,从而缓解了这一问题,确保梯度仍能流动,神经元也能继续学习。这对深度网络尤其有益,因为在深度网络中,标准 ReLU 激活层会加剧梯度消失问题。

人工智能和 ML 的相关性与应用

Leaky ReLU 特别适用于避免神经元死亡对有效学习至关重要的场景。一些关键应用包括

  • 物体检测:在复杂的物体检测模型中,例如 Ultralytics YOLO等复杂的物体检测模型中,可以在卷积层中使用 Leaky ReLU,即使在特征没有被强烈激活的情况下也能保持信息流。这有助于在多样化和具有挑战性的数据集中检测物体,提高安全警报系统智能停车管理等应用中所用模型的整体准确性
  • 生成对抗网络(GANs):用于生成新的合成数据的生成对抗网络(GANs)通常会从生成器和判别器网络中的 Leaky ReLU 中获益。Leaky ReLU 提供的稳定梯度流有助于更稳定、更有效地训练 GAN,从而生成更高质量的图像或数据。例如,在扩散模型和其他生成架构中,Leaky ReLU 可以帮助生成更清晰、更逼真的输出结果。
  • 医学图像分析:在医学图像分析中,尤其是在肿瘤检测等任务中,捕捉图像中的细微特征至关重要。Leaky ReLU 可以防止神经元失去活性,从而帮助保持对这些细微特征的敏感性,这有可能带来更准确的诊断和更好的患者治疗效果。
  • 实时推理:对于需要实时推理的应用(如边缘设备部署),虽然 Leaky ReLU 的计算密集度略高于 ReLU,但仍能在性能和计算效率之间取得良好平衡,因此适用于资源有限的环境。

泄漏的 ReLU 对 ReLU

Leaky ReLU 与 ReLU 的主要区别在于如何处理负输入。ReLU 完全屏蔽负值,将其设置为零,而 Leaky ReLU 则允许负值以线性方式少量通过,通常以一个小斜率(如 0.01)来定义。这个斜率是一个可以调整的超参数,但通常是固定不变的。这一看似微小的变化却对网络的学习动态产生了重大影响,尤其是在深度网络中,并能在各种人工智能和 ML 任务中提高模型性能和鲁棒性。虽然标准 ReLU 在计算上仍然更简单、更快速,但当解决即将消失的 ReLU 问题成为当务之急时,泄漏 ReLU 提供了一种有价值的替代方案。

阅读全部