术语表

改革者

探索 Reformer 模型:一种开创性的变压器结构,针对具有 LSH 注意力和可逆层的长序列进行了优化。

Reformer 是谷歌人工智能研究人员开发的一种高效的变换器模型。它的设计目的是处理超长数据序列,这对标准 Transformer 架构来说是一项重大挑战,因为其内存使用率和计算需求都很高。通过引入新技术,Reformer 可以在单个加速器上处理长达一百万字的上下文,从而使处理整本书或高分辨率图像成为可能。这种效率对于提高大型语言模型(LLM)人工智能(AI)中其他基于序列的任务的能力至关重要。

改革者如何实现效率

Reformer 的效率主要来自两大创新,它们解决了标准注意力机制和内存分配的瓶颈问题:

  • 位置敏感散列(LSH)注意力:传统的转换器会为序列中的每一对单词计算关注度得分,随着序列长度的增加,计算成本会越来越高。Reformer 使用对位置敏感的散列(LSH)近似值取代了全注意力。这种技术将相似的单词分组,只计算这些较小分组内的注意力,从而大大降低了计算负荷。它的工作原理是,意义(或向量空间)相近的单词很可能被散列到同一个桶中。
  • 可逆残差层:为了节省内存,标准神经网络会存储每一层的激活,以便在反向传播过程中使用。这需要消耗大量内存,尤其是在深度模型中。Reformer 采用可逆层,允许在训练过程中根据后续层的激活度重新计算任意层的激活度。这样就无需将激活值存储在内存中,从而大大减少了内存占用,并能训练更大的模型。Reformer 的原始研究论文详细介绍了这一概念。

应用

Reformer 处理长序列的能力使其适用于机器学习 (ML) 的各种任务,尤其是自然语言处理 (NLP)及其他任务:

  • 长文档分析:总结或回答有关整本书、长篇研究文章或法律文件的问题,这些文件的上下文跨越数千或数百万字。例如,Reformer 模型可用于生成多章节技术报告的简明文本摘要
  • 基因组学:处理长 DNA 或蛋白质序列以进行分析和模式识别。基因组数据可能由数十亿个碱基对组成,这使得 Reformer 成为识别模式或突变的理想架构。
  • 长格式媒体处理:分析长音频文件,以进行语音识别、基于扩展合成的音乐生成或长时间视频分析。例如,高效地转录长达数小时的会议或讲座。
  • 图像生成:有些方法将图像视为像素序列,尤其是高分辨率图像。Reformer 可以为文本到图像的生成等任务处理这些很长的序列。
  • 扩展时间序列分析:建立超长时间序列数据模型,如预测几十年的股市趋势或分析长期气候数据。

虽然Ultralytics YOLO等模型专注于图像中的高效物体检测,通常使用卷积神经网络(CNN)或混合架构(如使用PyTorch 等框架构建的RT-DETR),但 Reformer 中探索的计算和内存效率原则与整个深度学习领域息息相关。了解这些进步有助于推动创新,从而建立能力更强、更易于使用的人工智能模型。Ultralytics HUB等平台旨在简化人工智能开发和模型部署

与其他长序列模型的比较

Reformer 是为克服标准变压器的局限性而设计的几种型号之一。必须将其与其他型号区分开来:

  • 长式与 Reformer 一样,Longformer也适用于长序列。不过,它使用了一种不同的关注模式,将滑动窗口(局部关注)与少量全局关注标记相结合。这使得它在处理本地上下文最为重要的文档时非常有效,但在捕捉远距离关系方面,它不如 Reformer 基于散列的方法灵活。
  • Transformer-XL:该模型在 Transformer 架构中引入了递归功能,允许信息从一段文本流向下一段文本。Transformer-XL对于语言建模等自动递归任务尤为有效,但其设计并不像 Reformer 或 Longformer 那样可以一次性处理单个超长输入。
  • 标准变形器:最初的Transformer 模型使用完全自注意,因此非常有效,但由于其二次复杂性,对于长度超过几千个令牌的序列来说并不实用。Reformer 的主要贡献是让更长的输入也能达到 Transformer 的性能。您可以在我们的文档中找到更多模型比较

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板