术语表

变形金刚-XL

了解 Transformer-XL 如何通过分段级递归和远距离上下文处理等创新技术彻底改变序列建模。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

Transformer-XL 是 Transformer eXtra Long 的缩写,是一种先进的神经网络架构,旨在增强标准Transformer 模型的功能,尤其是在处理超长数据序列时。它由Google 人工智能公司和卡内基梅隆大学的研究人员共同开发,解决了处理长距离依赖关系时的主要局限性,使其在处理涉及大量文本、时间序列数据或其他序列信息的任务时非常有效,因为在这些任务中,短片段以外的上下文跨度至关重要。

克服标准变压器的限制

传统的转换器模型在处理输入数据时,会将其分割成固定长度的段或块。这种分割方式虽然对较短的序列有效,但会导致 "上下文割裂",即信息无法在段与段之间流动。这意味着在处理特定片段时,模型无法直接访问固定窗口以外的前几个片段所提供的上下文,从而限制了其理解阅读整个文档或分析长期历史数据模式等任务中固有的长距离依赖关系的能力。有关原始架构的更多信息,请参阅论文Attention Is All You Need

变压器-XL 的主要创新之处

Transformer-XL 引入了两项主要创新来克服这些限制,详见论文Transformer-XL:超越固定长度语境的语言模型

  1. 分段级递归:与独立处理每个分段的标准转换器不同,Transformer-XL 采用了递归机制。它可以缓存并重复使用为前一个分段计算的隐藏状态。这样,信息就能跨越分段边界传播,在不增加过多计算成本的情况下创造出更长的有效上下文。从概念上讲,这与递归神经网络(RNN)保持记忆的方式类似,但却集成到了 Transformer 的自我注意结构中。
  2. 相对位置编码:标准变换器使用绝对位置编码来告知模型标记在序列中的位置。这种方法在处理递归机制和可能很长的序列时效果较差。Transformer-XL 采用了相对位置编码,它根据标记之间的偏移量(它们之间的距离)而不是绝对位置来定义位置。这使得模型更加稳健,并能更好地泛化到比训练时更长的序列。

优势与区别

这些创新使 Transformer-XL 能够对可能长达数千步的依赖关系进行建模,从而显著提高语言建模基准和其他序列任务的性能。在逐段处理长序列时,它的推理速度也比标准 Transformer 更快。

必须将 Transformer-XL 与其他 Transformer 变体Vision Transformer (ViT))区分开来。虽然两者都利用了注意力机制,但 Transformer-XL 是专为序列数据(一维数据,如文本或时间序列)设计的。相比之下,ViT 通过将图像处理为斑块序列(二维数据),为计算机视觉调整了 Transformer 架构,这在以下模型中可以看到 RT-DETR等用于物体检测的模型。

实际应用

Transformer-XL 处理长上下文的能力使其适用于各种机器学习 (ML)应用:

  • 高级自然语言处理 (NLP):在生成连贯的长篇文章、在长时间对话中保持上下文的复杂聊天机器人以及高质量的长篇文档或书籍文本摘要等任务中表现出色。了解有关NLP 概念的更多信息。
  • 时间序列预测:分析大量历史数据,用于金融市场预测或天气预报,这些数据可能会在很长一段时间内出现模式。了解时间序列分析
  • 生物信息学:处理和分析 DNA 或蛋白质结构等超长序列,为基因组学等研究领域提供帮助。
  • 视频处理:虽然这些原理并不常见,但也可用于理解时间一致性至关重要的长视频序列。

虽然像 Ultralytics YOLO等模型专注于高效的实时物体检测和相关视觉任务,而 Transformer-XL 等模型在架构上的进步则极大地促进了深度学习领域的发展,并影响了更多跨领域上下文感知人工智能系统的开发。您可以使用Ultralytics HUB 等平台管理和训练各种模型。

阅读全部