术语表

改革者

探索 Reformer 模型:一种开创性的变压器结构,针对具有 LSH 注意力和可逆层的长序列进行了优化。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

Reformer 是标准Transformer架构的高效变体,专门用于处理超长序列,而超长序列对传统 Transformer 的计算和内存提出了巨大挑战。ReformerGoogle 研究院的研究人员推出,采用了多项创新技术,大幅降低了内存使用率和计算成本。这使得处理具有数十万甚至数百万元素的序列到序列模型变得可行,远远超出了许多深度学习(DL)应用中标准变换器的典型限制。这种效率为将类似变形金刚的模型应用于涉及大量上下文的任务提供了可能性,例如处理整本书、作为像素序列处理的高分辨率图像或长音乐作品。

改革者的核心理念

重整器主要通过两种关键技术实现其效率:

  • 位置敏感散列(LSH)关注:标准转换器使用自关注机制,即每个元素都关注其他元素,这导致计算复杂度随序列长度呈二次增长。Reformer 采用 LSH 关注机制取代了这一机制,它使用位置敏感散列(LSH)将相似元素(向量)分组。然后,只在这些组或附近的组内计算注意力,近似于完整的注意力机制,计算成本大大降低,更接近线性复杂度。
  • 可逆层:变换器会堆叠多个层,在模型训练过程中,每个层的激活通常会存储在内存中,以便在反向传播过程中使用。这将消耗大量内存,尤其是对于深度模型或长序列。Reformer 采用可逆残差层,允许在反向传播过程中根据下一层的激活度重新计算任意一层的激活度,而不是将其存储起来。这大大减少了与存储激活函数输出相关的内存消耗,从而可以在给定的内存限制条件下建立更深的模型或更长的序列。

改造器与标准变压器

虽然两种架构都基于注意力机制,但 Reformer 与基于 Transformer 的标准模型有很大不同:

  • 注意机制:标准变形金刚使用完全自我注意,而变形金刚则使用基于 LSH 的近似注意。
  • 内存占用:Reformer 通过可逆层极大地减少了内存使用量,而标准变形器会存储所有层的激活信息。
  • 计算成本:与全神贯注的二次复杂性相比,Reformer 的 LSH 注意力大大降低了计算负担,尤其是对于超长序列。
  • 权衡利弊:在某些任务中,近似(LSH 注意力)可能会导致准确率略低于完全注意力,但在涉及超长序列的应用中,效率的提高往往会超过准确率的提高,因为在这些应用中,标准变形器是不可行的。高效的替代方案(如Longformer)使用不同的稀疏注意力模式来实现类似的目标。优化这些权衡通常需要对超参数进行仔细调整

应用

Reformer 处理长序列的能力使其适用于人工智能(AI)机器学习(ML)领域的各种任务,尤其是自然语言处理(NLP)及其他领域:

  • 长文档分析:总结或回答有关整本书、长篇研究文章或法律文件的问题,这些文件的上下文跨越数千或数百万字。例如,Reformer 模型可用于生成多章节技术报告的简明摘要
  • 基因组学:处理长 DNA 或蛋白质序列以进行分析和模式识别。
  • 长格式媒体处理:分析长音频文件,以进行语音识别、基于扩展合成的音乐生成或长时间视频分析。例如,高效地转录长达数小时的会议或讲座。
  • 图像生成:有些方法将图像视为像素序列,尤其是高分辨率图像。Reformer 可以为文本到图像的生成等任务处理这些很长的序列。
  • 扩展时间序列分析:建立超长时间序列数据模型,如预测几十年的股市趋势或分析长期气候数据。

虽然像 Ultralytics YOLO等模型侧重于图像中的高效物体检测,通常使用卷积神经网络(CNN)或混合架构(如 RT-DETR等框架构建的 PyTorch因此,在 Reformer 中探索的计算和内存效率原则与整个 DL 领域都息息相关。了解这些进步有助于推动创新,建立能力更强、更易于使用的人工智能模型,包括大型语言模型(LLM)Ultralytics HUB等平台旨在简化人工智能开发和模型部署。对模型效率的比较(如YOLO11 与 YOLOv10)凸显了平衡性能与资源使用的持续努力。更多技术细节,请参阅Reformer 研究论文原文。

阅读全部