了解 Transformer-XL 如何通过分段级递归和远距离上下文处理等创新技术彻底改变序列建模。
Transformer-XL 是 Transformer eXtra Long 的缩写,是一种先进的神经网络架构,旨在增强标准Transformer 模型的功能,尤其是在处理超长数据序列时。它由Google 人工智能公司和卡内基梅隆大学的研究人员共同开发,解决了处理长距离依赖关系时的主要局限性,使其在处理涉及大量文本、时间序列数据或其他序列信息的任务时非常有效,因为在这些任务中,短片段以外的上下文跨度至关重要。
传统的转换器模型在处理输入数据时,会将其分割成固定长度的段或块。这种分割方式虽然对较短的序列有效,但会导致 "上下文割裂",即信息无法在段与段之间流动。这意味着在处理特定片段时,模型无法直接访问固定窗口以外的前几个片段所提供的上下文,从而限制了其理解阅读整个文档或分析长期历史数据模式等任务中固有的长距离依赖关系的能力。有关原始架构的更多信息,请参阅论文Attention Is All You Need。
Transformer-XL 引入了两项主要创新来克服这些限制,详见论文Transformer-XL:超越固定长度语境的语言模型:
这些创新使 Transformer-XL 能够对可能长达数千步的依赖关系进行建模,从而显著提高语言建模基准和其他序列任务的性能。在逐段处理长序列时,它的推理速度也比标准 Transformer 更快。
必须将 Transformer-XL 与其他 Transformer 变体(如Vision Transformer (ViT))区分开来。虽然两者都利用了注意力机制,但 Transformer-XL 是专为序列数据(一维数据,如文本或时间序列)设计的。相比之下,ViT 通过将图像处理为斑块序列(二维数据),为计算机视觉调整了 Transformer 架构,这在以下模型中可以看到 RT-DETR等用于物体检测的模型。
Transformer-XL 处理长上下文的能力使其适用于各种机器学习 (ML)应用:
虽然像 Ultralytics YOLO等模型专注于高效的实时物体检测和相关视觉任务,而 Transformer-XL 等模型在架构上的进步则极大地促进了深度学习领域的发展,并影响了更多跨领域上下文感知人工智能系统的开发。您可以使用Ultralytics HUB 等平台管理和训练各种模型。