术语表

变形金刚-XL

了解 Transformer-XL 如何通过分段级递归和远距离上下文处理等创新技术彻底改变序列建模。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

Transformer-XL(Transformer-Extra Long,超长变形器)是原始变形器架构的重大进步,主要用于更有效地处理序列数据中的长距离依赖关系。它由Google 人工智能公司和卡内基梅隆大学的研究人员共同开发,解决了标准变换器在处理超长序列时固有的上下文分割限制,这对自然语言处理(NLP)等任务至关重要。与独立处理固定长度片段的普通变换器不同,Transformer-XL 引入了跨片段重用信息的机制,使模型能够在更长的上下文中建立连贯的理解。

变压器-XL 的核心理念

Transformer-XL 引入了两大创新技术,以克服标准变压器在处理长序列时的局限性:

  1. 段级递归:标准转换器在处理长序列时,会将其分割成固定大小的片段。然而,信息无法在这些段之间流动,从而导致上下文碎片化。Transformer-XL 引入了一种递归机制,在这种机制下,为前一个片段计算的隐藏状态会被缓存起来,并在处理当前片段时作为上下文重新使用。这样,信息就能在各片段之间传播,从而创建出远远超出单个片段长度的有效上下文。从概念上讲,这与递归神经网络(RNN)保持状态的方式类似,但却集成到了 Transformer 的自我关注框架中。
  2. 相对位置编码原始的转换器使用绝对位置编码来告知模型标记在序列中的位置。在应用分段级递归时,重复使用绝对编码会产生问题,因为相同的位置索引会出现在不同的分段中,从而造成歧义。Transformer-XL 采用了相对位置编码,这种编码根据标记之间的距离而不是绝对位置来定义位置。这使得不同片段的位置信息保持一致,并使模型在推理过程中更好地适应不同的序列长度。

变形金刚-XL 的工作原理

在训练和推理过程中,Transformer-XL 会逐段处理输入序列。对于每个新的片段,它不仅会根据该片段中的标记计算注意力分数,还会使用上一个或多个片段的缓存隐藏状态。这些缓存信息提供了历史背景。相对位置编码的使用确保了注意力机制能正确理解标记的相对位置,即使是在注意缓存的前一个语段中的标记时也是如此。与使用标准转换器一次性处理整个序列相比,这种方法在保持计算效率的同时,大大增加了模型可捕捉的最大依赖长度,通常比片段本身的长度大得多。这种方法有助于防止出现依赖长度过长时梯度消失等问题。

变压器-XL 与标准变压器及相关型号的比较

主要区别在于处理序列长度和上下文:

  • 上下文长度:标准转换器的最大上下文长度是固定的,由分段大小决定。Transformer-XL 由于采用了递归机制,因此可以捕获数千个标记长度的依赖关系。
  • 计算:Transformer-XL 在评估长序列时的速度明显快于标准 Transformer,这是因为重复使用了之前片段的计算。
  • 内存缓存隐藏状态需要额外的内存,但可以避免重新计算序列早期部分的表示。
  • 相关模型虽然BERTGPT(生成式预训练变换器)等模型也基于变换器架构,但它们通常使用标准的固定长度上下文方法。Transformer-XL 专门针对长语境限制。其他模型,如LongformerReformer,也能解决长序列问题,但使用了不同的技术,如稀疏注意力模式或位置敏感哈希算法。

相关性和应用

Transformer-XL 的长程依赖建模能力使其在各种顺序任务中,尤其是在 NLP 中,发挥了巨大作用。

  • 语言建模:通过捕捉比以往模型更长的上下文,它在字符级和单词级语言建模基准(如enwik8WikiText-103)上取得了最先进的结果。这种对语言结构的更好理解对于生成连贯且与上下文相关的文本至关重要。
  • 长文档处理:涉及长文档的任务,如摘要(文本摘要)、长篇文章的问题解答或整本书或代码库的分析,都能从 Transformer-XL 的扩展上下文窗口中获益匪浅。例如,Transformer-XL 模型可以生成长达一章的虚构故事或编写大量的软件模块(文本生成)。
  • 强化学习:在需要长期规划的强化学习任务中,它的记忆能力也得到了提高。

虽然 Transformer-XL 主要用于 NLP,但其高效处理长序列的原理与机器学习 (ML) 息息相关,有可能影响用于时间序列分析的架构,甚至是处理视频数据的计算机视觉 (CV)方面。架构创新往往会相互渗透;例如,变形器本身就启发了用于图像分析的视觉变形器(ViT)。像 Hugging Face这样的平台承载了实现方法和预训练模型,为研究和应用开发提供了便利。您可以在论文《Transformer-XL:超越固定长度语境的细心语言模型"。了解这些先进的架构有助于开发和微调各种领域的模型,包括通过Ultralytics HUB 等平台管理和部署的模型。

阅读全部