术语表

长短期记忆(LSTM)

了解长短时记忆 (LSTM) 网络如何在处理顺序数据、克服 RNN 限制以及执行 NLP 和预测等人工智能任务方面表现出色。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

长短期记忆(LSTM)是一种专门的递归神经网络(RNN)结构,旨在克服传统 RNN 在学习长距离依赖关系方面的局限性。LSTM 由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年提出,在处理文本、语音和时间序列等数据序列时特别有效,因为在这些数据序列中,前一部分的上下文对于理解后一部分至关重要。这种能力使 LSTM 成为各种深度学习 (DL)应用的基础技术。

LSTM 如何工作

传统的 RNNs 难以解决梯度消失问题,即序列中早期步骤的信息在网络中传播时会逐渐消失,从而难以学习长时间的依赖关系。LSTM 利用涉及存储单元和门的独特结构解决了这一问题。

其核心部件是存储单元,它就像一条传送带,让信息在网络中相对不变地流动。LSTM 使用三个主要 "门 "来调节存储在存储单元中的信息:

  1. 遗忘门:决定从单元状态中删除哪些信息。
  2. 输入门:决定在单元状态中存储哪些新信息。
  3. 输出门:决定输出单元状态的哪一部分。

这些门是利用sigmoidtanh 等激活函数实现的,它们可以了解在每个时间步长内保留或丢弃哪些重要信息,从而使网络能够在扩展序列中保持相关的上下文。

实际应用

LSTM 已成功应用于许多需要序列建模的领域:

  • 自然语言处理 (NLP):LSTM 擅长机器翻译(例如,在翻译长句的同时保留其含义)、情感分析(理解文本中表达的观点)和语言建模等任务。例如,LSTM 可以处理一段文本以了解整体情感,并记住开头的关键短语,这些短语会影响结尾的含义。
  • 语音识别它们通过对音频信号的时间依赖性建模,将口语转换成文本。基于 LSTM 的系统可以通过考虑声音随时间变化的顺序来识别单词和短语,从而提高识别准确率Google的语音识别系统历来使用 LSTM。
  • 时间序列分析LSTM 可用于根据股票价格、天气模式或能源消耗等历史数据预测未来值。LSTM 具备记忆长期趋势的能力,因此适用于复杂的预测建模
  • 视频分析:LSTM 可以处理视频帧序列,以了解一段时间内发生的动作或事件,从而为活动识别等应用做出贡献。

LSTM 与相关架构

虽然 LSTM 功能强大,但它属于范围更广的序列模型系列:

  • RNNsLSTM 是一种 RNN,专为避免简单 RNN 的短时记忆问题而设计。
  • 门控循环单元(GRUs)GRU 是 LSTM 的一种变体,具有更简单的架构(更少的门)。在某些任务中,它们的性能通常与 LSTM 不相上下,但计算密集度却更低。
  • 变形金刚变形器是后来引入的,它依赖于注意力机制而非递归机制。在许多 NLP 任务中,特别是在像GPT-4 这样的大型语言模型(LLM)中,它们的性能在很大程度上超过了 LSTM。Longformer等架构进一步扩展了 Transformer 处理超长序列的能力。

实施和工具

可以使用流行的深度学习框架轻松实现 LSTM,例如 PyTorch(见PyTorch LSTM 文档)和 TensorFlow(见TensorFlow LSTM 文档)。Ultralytics 主要关注计算机视觉(CV)模型,如 Ultralytics YOLO等计算机视觉(CV 模型,但了解序列模型也很有价值,尤其是当研究人员在视频理解或图像字幕等任务中探索连接 NLP 和 CV 。您可以在Ultralytics 文档中进一步探索各种 ML 模型和概念。使用Ultralytics HUB 等平台可以简化各种模型的训练部署管理。Hochreiter 和 Schmidhuber 的 LSTM奠基论文提供了原始技术细节。DeepLearning.AI等资源提供涵盖序列模型(包括 LSTM)的课程。

阅读全部