术语表

长短期记忆（LSTM）

了解长短时记忆 (LSTM) 网络如何在处理顺序数据、克服 RNN 限制以及执行 NLP 和预测等人工智能任务方面表现出色。

长短期记忆（LSTM）是一种专门的递归神经网络（RNN）结构，旨在克服传统 RNN 在学习长距离依赖关系方面的局限性。LSTM 由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年提出，在处理文本、语音和时间序列等数据序列时特别有效，因为在这些数据序列中，前一部分的上下文对于理解后一部分至关重要。这种能力使 LSTM 成为各种深度学习 (DL)应用的基础技术。

LSTM 如何工作

传统的 RNNs 难以解决梯度消失问题，即序列中早期步骤的信息在网络中传播时会逐渐消失，从而难以学习长时间的依赖关系。LSTM 利用涉及存储单元和门的独特结构解决了这一问题。

其核心部件是存储单元，它就像一条传送带，让信息在网络中相对不变地流动。LSTM 使用三个主要 "门 "来调节存储在存储单元中的信息：

遗忘门：决定从单元状态中删除哪些信息。
输入门：决定在单元状态中存储哪些新信息。
输出门：决定输出单元状态的哪一部分。

这些门是利用sigmoid和tanh 等激活函数实现的，它们可以了解在每个时间步长内保留或丢弃哪些重要信息，从而使网络能够在扩展序列中保持相关的上下文。

实际应用

LSTM 已成功应用于许多需要序列建模的领域：

自然语言处理 (NLP)：LSTM 擅长机器翻译（例如，在翻译长句的同时保留其含义）、情感分析（理解文本中表达的观点）和语言建模等任务。例如，LSTM 可以处理一段文本以了解整体情感，并记住开头的关键短语，这些短语会影响结尾的含义。
语音识别：它们通过对音频信号的时间依赖性建模，将口语转换成文本。基于 LSTM 的系统可以通过考虑声音随时间变化的顺序来识别单词和短语，从而提高识别准确率。Google的语音识别系统历来使用 LSTM。
时间序列分析：LSTM 可用于根据股票价格、天气模式或能源消耗等历史数据预测未来值。LSTM 具备记忆长期趋势的能力，因此适用于复杂的预测建模。
视频分析：LSTM 可以处理视频帧序列，以了解一段时间内发生的动作或事件，从而为活动识别等应用做出贡献。

LSTM 与相关架构

虽然 LSTM 功能强大，但它属于范围更广的序列模型系列：

RNNsLSTM 是一种 RNN，专为避免简单 RNN 的短时记忆问题而设计。
门控循环单元（GRUs）：GRU 是 LSTM 的一种变体，具有更简单的架构（更少的门）。在某些任务中，它们的性能通常与 LSTM 不相上下，但计算密集度却更低。
变形金刚变形器是后来引入的，它依赖于注意力机制而非递归机制。在许多 NLP 任务中，特别是在像GPT-4 这样的大型语言模型（LLM）中，它们的性能在很大程度上超过了 LSTM。Longformer等架构进一步扩展了 Transformer 处理超长序列的能力。

实施和工具

可以使用流行的深度学习框架轻松实现 LSTM，例如 PyTorch(见PyTorch LSTM 文档）和 TensorFlow(见TensorFlow LSTM 文档）。Ultralytics 主要关注计算机视觉（CV）模型，如 Ultralytics YOLO等计算机视觉（CV ）模型，但了解序列模型也很有价值，尤其是当研究人员在视频理解或图像字幕等任务中探索连接 NLP 和 CV 时。您可以在Ultralytics 文档中进一步探索各种 ML 模型和概念。使用Ultralytics HUB 等平台可以简化各种模型的训练和部署管理。Hochreiter 和 Schmidhuber 的 LSTM奠基论文提供了原始技术细节。DeepLearning.AI等资源提供涵盖序列模型（包括 LSTM）的课程。

长短期记忆（LSTM）

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

LSTM 如何工作

实际应用

LSTM 与相关架构

实施和工具

阅读更多博客

加入Ultralytics 社区