了解 Transformer-XL 如何通过分段级递归和远距离上下文处理等创新技术彻底改变序列建模。
Transformer-XL(Transformer-Extra Long,超长变形器)是原始变形器架构的重大进步,主要用于更有效地处理序列数据中的长距离依赖关系。它由Google 人工智能公司和卡内基梅隆大学的研究人员共同开发,解决了标准变换器在处理超长序列时固有的上下文分割限制,这对自然语言处理(NLP)等任务至关重要。与独立处理固定长度片段的普通变换器不同,Transformer-XL 引入了跨片段重用信息的机制,使模型能够在更长的上下文中建立连贯的理解。
Transformer-XL 引入了两大创新技术,以克服标准变压器在处理长序列时的局限性:
在训练和推理过程中,Transformer-XL 会逐段处理输入序列。对于每个新的片段,它不仅会根据该片段中的标记计算注意力分数,还会使用上一个或多个片段的缓存隐藏状态。这些缓存信息提供了历史背景。相对位置编码的使用确保了注意力机制能正确理解标记的相对位置,即使是在注意缓存的前一个语段中的标记时也是如此。与使用标准转换器一次性处理整个序列相比,这种方法在保持计算效率的同时,大大增加了模型可捕捉的最大依赖长度,通常比片段本身的长度大得多。这种方法有助于防止出现依赖长度过长时梯度消失等问题。
主要区别在于处理序列长度和上下文:
Transformer-XL 的长程依赖建模能力使其在各种顺序任务中,尤其是在 NLP 中,发挥了巨大作用。
虽然 Transformer-XL 主要用于 NLP,但其高效处理长序列的原理与机器学习 (ML) 息息相关,有可能影响用于时间序列分析的架构,甚至是处理视频数据的计算机视觉 (CV)方面。架构创新往往会相互渗透;例如,变形器本身就启发了用于图像分析的视觉变形器(ViT)。像 Hugging Face这样的平台承载了实现方法和预训练模型,为研究和应用开发提供了便利。您可以在论文《Transformer-XL:超越固定长度语境的细心语言模型"。了解这些先进的架构有助于开发和微调各种领域的模型,包括通过Ultralytics HUB 等平台管理和部署的模型。