术语表

递归神经网络(RNN)

从 NLP 到时间序列分析,探索循环神经网络 (RNN) 在序列数据方面的强大功能。立即了解关键概念和应用!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

递归神经网络(RNN)是一类专门用于处理序列数据的神经网络(NN),其中信息的顺序非常重要。与独立处理输入的标准前馈网络不同,RNN 具有内部循环,允许序列中先前步骤的信息持续存在并影响后续步骤。这种 "记忆 "使它们非常适合人工智能(AI)机器学习(ML)领域中涉及文本、语音或时间序列数据等序列的任务。

循环神经网络的工作原理

RNN 的核心理念是隐藏状态,它是网络的存储器。在序列中的每一步,RNN 都会利用当前输入和上一步的隐藏状态产生输出并更新其隐藏状态。更新后的隐藏状态会传递给下一步。这种递归连接使网络能够随着时间的推移保持上下文。训练 RNN 通常涉及反向传播的一种变体,称为 "时间反向传播"(BPTT),它在序列长度上展开网络以计算梯度。长短期记忆(LSTM)门控递归单元(GRU)等更先进的变体是为了解决简单 RNN 的一些局限性,尤其是梯度消失问题,使它们能够更有效地学习长期依赖关系。您可以使用Ultralytics HUB 等平台探索和训练各种模型,其中可能包括基于序列的模型。

RNN 的应用

RNN 在推进不同领域的序列建模任务方面发挥了重要作用。下面是几个例子:

RNN 与其他网络架构的比较

要了解 RNN,就要将其与其他神经网络类型区分开来:

  • 前馈网络(如 MLP、CNN):这些网络处理固定大小的输入,对过去的输入没有固有记忆。信息单向流动,从输入到输出。CNN 擅长空间层次结构(如图像分类物体检测),而 RNN 则针对时间序列而构建。您可以进一步了解物体检测模型,如 Ultralytics YOLO等物体检测模型,它们主要使用 CNN 和变换器架构。
  • 变压器变形器利用注意力机制,在许多 NLP 任务中的最新性能已大大超过 RNN。它们可以更有效地模拟远距离依赖关系,并在训练过程中实现更高的并行化,从而克服了 RNN 的主要局限性。阅读物体检测的演变,了解不同架构如何提升人工智能能力。
  • LSTMGRU这些都是特定类型的 RNN,设计有门控机制,可以更好地控制信息流,缓解梯度消失问题,因此与普通 RNN 相比,它们更擅长学习长序列。斯坦福大学的 CS230 课程教材很好地概述了这些变体。

虽然像变形金刚这样的新架构已在许多领域占据主导地位,但 RNNs 仍然是深度学习的重要基础概念,在特定应用中或作为更大混合模型的组成部分时仍然具有相关性。了解它们的机制可以为人工智能中序列建模的发展提供宝贵的见解。为了进一步探索,DeepLearning.AI 专业等资源详细介绍了 RNN。

阅读全部