术语表

变形金刚-XL

了解 Transformer-XL 如何通过分段级递归和远距离上下文处理等创新技术彻底改变序列建模。

Transformer-XL（Transformer-Extra Long，超长变形器）是原始变形器架构的重大进步，主要用于更有效地处理序列数据中的长距离依赖关系。它由Google 人工智能公司和卡内基梅隆大学的研究人员共同开发，解决了标准变换器在处理超长序列时固有的上下文分割限制，这对自然语言处理（NLP）等任务至关重要。与独立处理固定长度片段的普通变换器不同，Transformer-XL 引入了跨片段重用信息的机制，使模型能够在更长的上下文中建立连贯的理解。

变压器-XL 的核心理念

Transformer-XL 引入了两大创新技术，以克服标准变压器在处理长序列时的局限性：

段级递归：标准转换器在处理长序列时，会将其分割成固定大小的片段。然而，信息无法在这些段之间流动，从而导致上下文碎片化。Transformer-XL 引入了一种递归机制，在这种机制下，为前一个片段计算的隐藏状态会被缓存起来，并在处理当前片段时作为上下文重新使用。这样，信息就能在各片段之间传播，从而创建出远远超出单个片段长度的有效上下文。从概念上讲，这与递归神经网络（RNN）保持状态的方式类似，但却集成到了 Transformer 的自我关注框架中。
相对位置编码原始的转换器使用绝对位置编码来告知模型标记在序列中的位置。在应用分段级递归时，重复使用绝对编码会产生问题，因为相同的位置索引会出现在不同的分段中，从而造成歧义。Transformer-XL 采用了相对位置编码，这种编码根据标记之间的距离而不是绝对位置来定义位置。这使得不同片段的位置信息保持一致，并使模型在推理过程中更好地适应不同的序列长度。

变形金刚-XL 的工作原理

在训练和推理过程中，Transformer-XL 会逐段处理输入序列。对于每个新的片段，它不仅会根据该片段中的标记计算注意力分数，还会使用上一个或多个片段的缓存隐藏状态。这些缓存信息提供了历史背景。相对位置编码的使用确保了注意力机制能正确理解标记的相对位置，即使是在注意缓存的前一个语段中的标记时也是如此。与使用标准转换器一次性处理整个序列相比，这种方法在保持计算效率的同时，大大增加了模型可捕捉的最大依赖长度，通常比片段本身的长度大得多。这种方法有助于防止出现依赖长度过长时梯度消失等问题。

变压器-XL 与标准变压器及相关型号的比较

主要区别在于处理序列长度和上下文：

上下文长度：标准转换器的最大上下文长度是固定的，由分段大小决定。Transformer-XL 由于采用了递归机制，因此可以捕获数千个标记长度的依赖关系。
计算：Transformer-XL 在评估长序列时的速度明显快于标准 Transformer，这是因为重复使用了之前片段的计算。
内存缓存隐藏状态需要额外的内存，但可以避免重新计算序列早期部分的表示。
相关模型虽然BERT和GPT（生成式预训练变换器）等模型也基于变换器架构，但它们通常使用标准的固定长度上下文方法。Transformer-XL 专门针对长语境限制。其他模型，如Longformer和Reformer，也能解决长序列问题，但使用了不同的技术，如稀疏注意力模式或位置敏感哈希算法。

变形金刚-XL

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

变压器-XL 的核心理念

变形金刚-XL 的工作原理

变压器-XL 与标准变压器及相关型号的比较

相关性和应用

阅读更多博客

加入Ultralytics 社区