了解长短时记忆 (LSTM) 网络如何在处理顺序数据、克服 RNN 限制以及执行 NLP 和预测等人工智能任务方面表现出色。
长短期记忆(LSTM)是一种专门的递归神经网络(RNN)结构,旨在克服传统 RNN 在学习长距离依赖关系方面的局限性。LSTM 由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年提出,在处理文本、语音和时间序列等数据序列时特别有效,因为在这些数据序列中,前一部分的上下文对于理解后一部分至关重要。这种能力使 LSTM 成为各种深度学习 (DL)应用的基础技术。
传统的 RNNs 难以解决梯度消失问题,即序列中早期步骤的信息在网络中传播时会逐渐消失,从而难以学习长时间的依赖关系。LSTM 利用涉及存储单元和门的独特结构解决了这一问题。
其核心部件是存储单元,它就像一条传送带,让信息在网络中相对不变地流动。LSTM 使用三个主要 "门 "来调节存储在存储单元中的信息:
这些门是利用sigmoid和tanh 等激活函数实现的,它们可以了解在每个时间步长内保留或丢弃哪些重要信息,从而使网络能够在扩展序列中保持相关的上下文。
LSTM 已成功应用于许多需要序列建模的领域:
虽然 LSTM 功能强大,但它属于范围更广的序列模型系列:
可以使用流行的深度学习框架轻松实现 LSTM,例如 PyTorch(见PyTorch LSTM 文档)和 TensorFlow(见TensorFlow LSTM 文档)。Ultralytics 主要关注计算机视觉(CV)模型,如 Ultralytics YOLO等计算机视觉(CV )模型,但了解序列模型也很有价值,尤其是当研究人员在视频理解或图像字幕等任务中探索连接 NLP 和 CV 时。您可以在Ultralytics 文档中进一步探索各种 ML 模型和概念。使用Ultralytics HUB 等平台可以简化各种模型的训练和部署管理。Hochreiter 和 Schmidhuber 的 LSTM奠基论文提供了原始技术细节。DeepLearning.AI等资源提供涵盖序列模型(包括 LSTM)的课程。