术语表

改革者

探索 Reformer 模型：一种开创性的变压器结构，针对具有 LSH 注意力和可逆层的长序列进行了优化。

Reformer 是谷歌人工智能研究人员开发的一种高效的变换器模型。它的设计目的是处理超长数据序列，这对标准 Transformer 架构来说是一项重大挑战，因为其内存使用率和计算需求都很高。通过引入新技术，Reformer 可以在单个加速器上处理长达一百万字的上下文，从而使处理整本书或高分辨率图像成为可能。这种效率对于提高大型语言模型（LLM）和人工智能（AI）中其他基于序列的任务的能力至关重要。

改革者如何实现效率

Reformer 的效率主要来自两大创新，它们解决了标准注意力机制和内存分配的瓶颈问题：

位置敏感散列（LSH）注意力：传统的转换器会为序列中的每一对单词计算关注度得分，随着序列长度的增加，计算成本会越来越高。Reformer 使用对位置敏感的散列（LSH）近似值取代了全注意力。这种技术将相似的单词分组，只计算这些较小分组内的注意力，从而大大降低了计算负荷。它的工作原理是，意义（或向量空间）相近的单词很可能被散列到同一个桶中。
可逆残差层：为了节省内存，标准神经网络会存储每一层的激活，以便在反向传播过程中使用。这需要消耗大量内存，尤其是在深度模型中。Reformer 采用可逆层，允许在训练过程中根据后续层的激活度重新计算任意层的激活度。这样就无需将激活值存储在内存中，从而大大减少了内存占用，并能训练更大的模型。Reformer 的原始研究论文详细介绍了这一概念。

应用

Reformer 处理长序列的能力使其适用于机器学习 (ML) 的各种任务，尤其是自然语言处理 (NLP)及其他任务：

长文档分析：总结或回答有关整本书、长篇研究文章或法律文件的问题，这些文件的上下文跨越数千或数百万字。例如，Reformer 模型可用于生成多章节技术报告的简明文本摘要。
基因组学：处理长 DNA 或蛋白质序列以进行分析和模式识别。基因组数据可能由数十亿个碱基对组成，这使得 Reformer 成为识别模式或突变的理想架构。
长格式媒体处理：分析长音频文件，以进行语音识别、基于扩展合成的音乐生成或长时间视频分析。例如，高效地转录长达数小时的会议或讲座。
图像生成：有些方法将图像视为像素序列，尤其是高分辨率图像。Reformer 可以为文本到图像的生成等任务处理这些很长的序列。
扩展时间序列分析：建立超长时间序列数据模型，如预测几十年的股市趋势或分析长期气候数据。

虽然Ultralytics YOLO等模型专注于图像中的高效物体检测，通常使用卷积神经网络（CNN）或混合架构（如使用PyTorch 等框架构建的RT-DETR），但 Reformer 中探索的计算和内存效率原则与整个深度学习领域息息相关。了解这些进步有助于推动创新，从而建立能力更强、更易于使用的人工智能模型。Ultralytics HUB等平台旨在简化人工智能开发和模型部署。

与其他长序列模型的比较

Reformer 是为克服标准变压器的局限性而设计的几种型号之一。必须将其与其他型号区分开来：

长式与 Reformer 一样，Longformer也适用于长序列。不过，它使用了一种不同的关注模式，将滑动窗口（局部关注）与少量全局关注标记相结合。这使得它在处理本地上下文最为重要的文档时非常有效，但在捕捉远距离关系方面，它不如 Reformer 基于散列的方法灵活。
Transformer-XL：该模型在 Transformer 架构中引入了递归功能，允许信息从一段文本流向下一段文本。Transformer-XL对于语言建模等自动递归任务尤为有效，但其设计并不像 Reformer 或 Longformer 那样可以一次性处理单个超长输入。
标准变形器：最初的Transformer 模型使用完全自注意，因此非常有效，但由于其二次复杂性，对于长度超过几千个令牌的序列来说并不实用。Reformer 的主要贡献是让更长的输入也能达到 Transformer 的性能。您可以在我们的文档中找到更多模型比较。

改革者

培训 Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案为您的创新提供动力

使用 Ultralytics YOLO 在数秒内训练人工智能模型

改革者如何实现效率

应用

与其他长序列模型的比较

在此类别中阅读更多内容

评分者之间的可靠性：定义、示例和计算

谷歌精灵 3 利用人工智能让您的 3D 世界栩栩如生

探索 OpenAI 的 GPT-5：智能统一系统

加入 Ultralytics 社区