术语表

有门禁的经常性单元(GRU)

了解门控循环单元 (GRU) 如何出色地高效处理顺序数据,解决 NLP 和时间序列分析等人工智能任务。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

门控递归单元(GRUs)是一种递归神经网络(RNN)架构,旨在有效处理文本、语音或时间序列等序列数据。作为长短时记忆(LSTM)网络的一种更简单的替代方案,GRU 旨在解决梯度消失问题,该问题会在学习长程依赖关系时影响传统的 RNN。这使得它们在各种人工智能(AI)机器学习(ML)任务中具有很高的价值,在这些任务中,理解随时间变化的上下文对于准确预测或分析至关重要。

GRU 的核心概念

GRU 利用专门的门控机制来调节网络内的信息流,从而有选择地保留或丢弃序列中先前步骤的信息。LSTM 有三个不同的门控(输入、遗忘和输出),而 GRU 不同,它只使用两个门控:更新门控和复位门控。

  1. 更新门:这个门决定了有多少过去的信息(之前的隐藏状态)应该被带入未来的状态。它帮助模型决定保留多少现有内存。
  2. 复位门:该门决定在计算新的候选隐藏状态之前,要遗忘多少过去的信息。它控制着新输入如何与之前的记忆进行交互。

与 LSTM 相比,这种精简的架构往往能加快模型训练速度,并需要更少的计算资源,有时还能在许多任务上实现不相上下的性能。这种门控机制是它们能够捕捉长序列中的依赖关系的关键,而这正是深度学习(DL)中的一个常见挑战。其核心思想是在2014 年的一篇研究论文中提出的。

人工智能和机器学习的相关性

GRU 在处理顺序数据方面的效率和有效性使其在现代人工智能中具有重要意义。虽然像变形金刚这样的新架构已经崭露头角,但 GRU 仍然是一个强有力的选择,尤其是在计算资源有限或其特定架构擅长的任务中。它们在以下方面尤其有用

  • 自然语言处理(NLP) 机器翻译情感分析文本生成等任务都得益于 GRU 理解语言上下文的能力。例如,在翻译一个句子时,GRU 可以记住前面提到的名词的语法性别,从而正确转折后面的形容词。
  • 语音识别处理一段时间内的音频信号,将语音转录为文本。GRU 可以帮助保持语篇早期部分的上下文,从而正确解释音素。Kaldi等流行的工具包已经探索了 RNN 变体。
  • 时间序列分析根据过去的观察结果预测未来值,如股票价格或天气模式。GRU 可以捕捉数据中的时间依赖性。
  • 音乐生成:通过学习现有音乐中的模式来创建音符序列。
  • 视频分析:GRU 通常与CNN 结合使用,可帮助对视频序列中的时间动态进行建模,这与动作识别或帧上物体跟踪等任务相关。 Ultralytics YOLO.

主要功能和结构

GRU 的显著特点是其两个管理隐藏状态的门:

  • 更新门:结合了 LSTM 中遗忘门和输入门的作用。
  • 复位门:决定如何将新的输入与之前的内存相结合。

这些门共同管理网络的内存,使其能够学习在长时间序列中保留或丢弃哪些相关信息。现代深度学习框架,如 PyTorch(见PyTorch GRU 文档)和 TensorFlow(见TensorFlow GRU 文档)等现代深度学习框架提供了现成的 GRU 实现,简化了它们在ML 项目中的使用。

与类似架构的比较

GRU 经常与其他为顺序数据设计的模型进行比较:

  • LSTM(长短期记忆)LSTM 有三个门和一个独立的单元状态,因此稍微复杂一些,但对于某些需要更精细地控制内存的任务来说,功能可能更强大。由于参数较少,GRU 的训练速度通常更快,计算成本也更低。在 GRU 和 LSTM 之间做出选择通常取决于特定的数据集和任务,需要进行经验评估
  • 简单 RNN:标准的 RNN 会受到梯度消失问题的严重影响,因此很难学习长程依赖关系。GRU(和 LSTM)通过其门控机制专门用于缓解这一问题。
  • 变形者变换器依赖于注意机制,尤其是自我注意,而不是递归。它们擅长捕捉长程依赖关系,并允许在训练过程中进行更多并行化处理,因此在许多 NLP 任务(BERTGPT)中都是最先进的。不过,在某些序列长度或应用中,它们可能比 GRU 的计算量更大。视觉转换器(ViT)将这种架构应用于计算机视觉

虽然像 Ultralytics YOLOv8等模型主要使用基于 CNN 的架构来完成物体检测分割等任务,而对于涉及时间数据或序列的更广泛的人工智能应用和任务(如集成了检测模型的视频分析或跟踪)来说,理解 GRUs 等序列模型至关重要。您可以使用Ultralytics HUB 等平台管理和训练各种模型。

阅读全部