术语表

Longformer

了解 Longformer,它是专为长序列优化的转换器模型,可为 NLP、基因组学和视频分析提供可扩展的效率。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

Longformer 是一种基于变换器的专用模型,旨在高效处理超长文本序列,克服了BERT(变换器双向编码器表示法)等早期模型的局限性。Longformer 由艾伦人工智能研究所(Allen Institute for AI,AI2)的研究人员开发,它解决了标准变换器模型在处理数千个标记时面临的计算复杂性难题,使其适用于涉及冗长文档的任务。这种能力对于推进自然语言处理(NLP)应用至关重要,因为这些应用需要理解大跨度文本的上下文。

Longformer 如何工作

标准变换器模型使用完全自关注机制,即每个标记都关注其他标记。这种机制虽然功能强大,但其内存和计算要求随序列长度呈二次方增长,因此对于长度超过几百个标记的序列来说并不实用。Longformer 引入了一种高效的关注模式,该模式与序列长度成线性关系。它主要采用以下组合:

  • 滑动窗口关注:每个标记只关注两侧固定数量的相邻标记,从而形成一个本地上下文窗口。
  • 稀释滑动窗口:为了在不大幅增加计算量的情况下扩大感受野,一些窗口注意层使用了间隙(扩张)技术,允许标记间接注意更远的标记。
  • 全球关注: 允许少数预选标记关注整个序列,而整个序列也可以关注它们。这通常用于对任务至关重要的特定标记,如 [CLS] 分类任务中的标记。

这种经过修改的注意力机制使 Longformer 能够处理多达数万个标记的输入,大大超过 BERT 等模型通常的 512 个标记限制,同时还能保持强劲的性能。这种效率对于现实世界中的许多机器学习(ML)任务至关重要。

与其他机型的主要区别

Longformer 与BERTGPT-2等型号的主要区别在于它们能有效处理的最大序列长度。BERT 只能处理 512 个标记,而 Longformer 可以处理更长的序列。其他专为长序列设计的模型,如ReformerTransformer-XL,则使用不同的技术,如位置敏感哈希算法或递归机制来实现高效。Longformer 的方法在其最初的研究论文中有详细介绍,它能灵活地将局部注意力和全局注意力结合起来,经过微调后适用于各种下游任务。

应用和用例

Longformer 处理长文档的能力为许多 NLP 任务提供了可能性,而这些任务在以前都是具有挑战性的,或者需要复杂的变通方法,如分割文档。

  • 文档级问题解答:在大量文件(如法律文本、技术手册或冗长的报告)中寻找答案,答案可能取决于分布在不同段落或页面的信息。
  • 长文档摘要:通过了解完整文档的上下文,生成整篇文章、研究论文或书籍章节的简明摘要。
  • 核心参照解析:识别长篇文本中提及同一实体的内容。
  • 科学文献分析:从密集的学术论文中处理和提取信息。平台如 Hugging Face等平台可通过其Transformers 库轻松访问预训练的 Longformer 模型。

人工智能/移动语言的意义

Longformer 是深度学习模型在理解和推理长篇文本方面迈出的重要一步。通过克服标准变换器的二次复杂性瓶颈,它允许大型语言模型(LLM)更有效地处理涉及文档、书籍和扩展对话的任务。这种能力对于需要深入理解上下文的应用来说至关重要,它突破了人工智能在处理冗长格式的人类语言方面所能达到的极限。Ultralytics YOLO 等模型在物体检测计算机视觉任务中表现出色,而 Longformer 则在处理复杂的长篇文本数据方面取得了类似的进步。Ultralytics HUB等工具简化了各种人工智能模型的部署和管理,包括针对特定 NLP 任务进行微调的模型。

阅读全部