术语表

递归神经网络(RNN)

从 NLP 到时间序列分析,探索循环神经网络 (RNN) 在序列数据方面的强大功能。立即了解关键概念和应用!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

递归神经网络(RNN)是人工神经网络(NN)的一个基本类别,专门用于处理顺序数据。与信息严格单向流动的前馈网络不同,RNN 具有内部循环,允许信息持续存在。这种 "记忆 "使它们能够将以前的信息与当前的任务联系起来,从而使它们在上下文和顺序至关重要的应用中非常有效,例如在更广泛的人工智能(AI)领域中理解语言或分析随时间变化的趋势。

RNN 如何工作

RNN 的核心理念是能够保留序列中先前步骤的信息,从而影响当前和未来步骤的处理。这是通过隐藏状态来实现的,隐藏状态就像一个存储器,捕捉迄今为止已处理过的信息。在序列中的每一步,网络都会利用当前输入和之前的隐藏状态产生输出,并更新其隐藏状态。这种循环连接使网络能够表现出动态的时间行为,这对于时间序列分析自然语言处理(NLP)等涉及序列的任务至关重要。您可以在斯坦福大学 CS230 课程材料等资源中探索有关 RNN 的基础概念。

实际应用

RNN 在推动各种人工智能应用方面发挥了重要作用:

  • 自然语言处理(NLP):广泛用于机器翻译等任务,其中理解词序对准确翻译至关重要;情感分析可从文本中判断观点;语言建模可预测句子中的下一个单词(如智能手机键盘中所示);以及文本生成
  • 语音识别:RNN 处理音频特征序列,将口语转录为文本,是许多语音转文本系统和虚拟助手的支柱。相关概述可查阅维基百科的语音识别页面
  • 时间序列预测:应用于金融领域的股市预测、天气预报,以及通过学习随时间变化的模式来分析物联网设备的传感器数据。

RNN 与其他网络架构的比较

要了解 RNN,就要将其与其他神经网络类型区分开来:

变体与挑战

由于存在梯度消失梯度爆炸等问题,标准 RNN 在学习长程依赖关系时会很吃力。为了缓解这些问题,人们开发了更复杂的变体:

  • 长短期记忆(LSTM)引入门(输入、遗忘、输出)来控制信息流,使网络能够有选择地记忆或遗忘长序列的信息。
  • 门控循环单元(GRU)LSTM 的简化版,参数(更新门和复位门)较少,在许多任务中通常能达到相当的性能。

框架,如 PyTorchTensorFlow等框架提供了这些 RNN 变体的实现。

虽然像变形金刚这样的新架构已在许多领域占据主导地位,但 RNNs 仍然是深度学习的重要基础概念,在特定应用中或作为更大混合模型的组成部分时仍然具有相关性。了解它们的机制可以为人工智能中序列建模的发展提供宝贵的见解。为了进一步探索,DeepLearning.AI 专业等资源详细介绍了 RNN。您可以使用Ultralytics HUB 等平台管理和训练各种模型,包括可能包含 RNN 组件的模型。

阅读全部