术语表

改革者

探索 Reformer 模型:一种开创性的变压器结构,针对具有 LSH 注意力和可逆层的长序列进行了优化。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

Reformer 是标准Transformer架构的高效变体,专门用于处理超长序列,而超长序列对传统 Transformer 的计算和内存提出了巨大挑战。ReformerGoogle 研究院的研究人员推出,它采用了多项创新技术,大大降低了内存使用率和计算成本,使其能够处理包含数十万甚至数百万元素的序列,远远超出了标准变换器的典型限制。这种效率为将类似变形金刚的模型应用于涉及大量上下文的任务提供了可能性,例如处理整本书、作为像素序列处理的高分辨率图像或长音乐片段。

改革者的核心理念

重整器主要通过两种关键技术实现其效率:

  1. 位置敏感散列(LSH)关注:标准转换器使用完全自关注机制,其中每个元素(标记)都会关注其他元素。其计算成本随序列长度呈二次增长。Reformer 使用基于位置敏感散列Locality-Sensitive Hashing)的近似技术 LSH 注意机制取代了这一机制。LSH 将相似的标记分组,只在这些分组或附近的分组内计算关注度,从而将计算复杂度从二次方显著降低到接近线性。
  2. 可逆残差层:变换器会堆叠多个层,在训练过程中,每个层的激活通常都会存储在内存中,用于反向传播。这需要消耗大量内存,尤其是在层数较多或激活量较大的情况下。Reformer 采用可逆层,在反向传递过程中,只需使用下一层的激活值即可重新计算任何一层的激活值。这样就不需要为大多数层存储激活值,从而大大减少了训练过程中的内存使用量。

改造器与标准变压器

虽然两者都基于注意力机制,但 Reformer 有很大不同:

  • 注意力标准变形器使用计算成本高昂的完全注意。Reformer 使用基于 LSH 的高效近似注意力。
  • 内存标准变形器需要大量内存来存储激活。Reformer 采用可逆层,可在模型训练过程中将内存需求降至最低。
  • 序列长度:标准转换器通常只能处理几千个字节的序列。Reformer 可以处理更长数量级的序列。
  • 使用案例:标准变形器适用于中等长度序列的任务。Reformer 专门针对涉及超长序列的任务进行了优化,在这些任务中,标准变形金刚是不可行的。您可以在Hugging Face 等平台上探索各种基于变形金刚的模型

应用

Reformer 处理长序列的能力使其适用于人工智能 (AI) 的各种任务:

  • 长文档处理:对整本书进行摘要、根据长篇法律或技术文档回答问题或对长篇文本进行情感分析等任务变得更加简单易行。
  • 基因组学分析长 DNA 或蛋白质序列。
  • 时间序列分析:建立超长时间序列数据模型,如详细的金融市场趋势或长期气候模式。
  • 生成模型:通过将像素视为一个长序列,生成连贯的文本、音乐甚至高清图像(文本到图像的生成)。

虽然像 Ultralytics YOLO等模型侧重于图像中的高效物体检测,通常使用卷积神经网络(CNN)或混合架构(如 RT-DETRReformer 中探索的计算和内存效率原则适用于整个深度学习 (DL)领域。了解这些进步有助于推动创新,建立能力更强、更易获取的人工智能模型,这也是Ultralytics HUB等旨在简化人工智能开发和部署的平台的共同目标。更多详情,请参阅Reformer 研究论文原文。比较模型效率(如YOLO11 与 YOLOv10)凸显了平衡性能与资源使用的持续努力。

阅读全部