术语表

Longformer

了解 Longformer,它是专为长序列优化的转换器模型,可为 NLP、基因组学和视频分析提供可扩展的效率。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

Longformer 是一种变压器模型架构,旨在比传统变压器更高效地处理超长数据序列。这种改进解决了标准变换器模型的一个主要局限,即由于计算限制与序列长度成二次方关系,标准变换器模型在处理长输入时非常吃力。

了解 Longformer

传统的变换器模型虽然功能强大,但在处理冗长的文本、音频或视频序列时却面临挑战。其注意力机制的计算复杂度随输入序列长度的增加而呈二次方增长,因此对于长文档或高分辨率输入来说并不实用。为了解决这个问题,Longformer 引入了一种随序列长度线性增长的注意力机制。这一创新使模型能够处理数千甚至数万个词块的输入,为处理各种人工智能任务中的较长上下文开辟了新的可能性。

Longformer 高效的关键在于其混合注意力机制,该机制结合了不同类型的注意力:

  • 滑动窗口关注:每个标记都会关注其周围固定数量的标记,从而形成局部语境。这种方法计算效率高,能有效捕捉本地依赖关系。
  • 全局关注:某些预定义标记会关注所有其他标记,而所有标记也会关注这些全局标记。这样,模型就能学习全局表征,并在整个长序列中保持整体语境。
  • 稀释滑动窗口注意(Dilated Sliding Window Attention):与滑动窗口注意类似,但窗口中存在间隙(扩张),从而以类似的计算成本获得更大的有效感受野。

通过策略性地结合这些注意力机制,Longformer 极大地减轻了计算负担,同时保留了对理解冗长输入至关重要的长程依赖性建模能力。这使得 Longformer 在处理文档、文章或对话的自然语言处理(NLP)任务以及涉及高分辨率图像或视频的计算机视觉任务中尤为重要。

长形体的应用

Longformer 能够处理长序列,因此适用于对上下文长度有严格要求的各种应用:

  • 文档摘要:在需要理解整个文档以生成连贯摘要的任务中,Longformer 通过处理全文输入而表现出色。例如,在法律或医学图像分析中,冗长报告的上下文至关重要,与上下文窗口有限的模型相比,Longformer 可以提供更全面、更准确的摘要。
  • 长文档问题解答:Longformer 在需要从大量文件中检索信息的问题解答系统中非常有效。例如,在法律人工智能应用中,Longformer 可用于回答基于冗长案例文件或法规的特定法律问题,与每次只能处理文本片段的模型相比,优势明显。
  • 处理基因组数据:除文本外,Longformer 的架构还适用于其他序列数据类型,包括基因组序列。在生物信息学中,分析长 DNA 或 RNA 序列对于了解生物过程和疾病至关重要。Longformer 可以处理这些长序列,从而识别出上下文较短的模型可能忽略的模式和关系。
  • 长视频分析:在涉及视频的计算机视觉任务中,尤其是那些需要理解长时间事件的任务中,Longformer 可用于处理长帧序列。这对于监控或分析长时间手术过程等应用非常有益,因为在这些应用中,时间背景至关重要。

长变压器和变压器型号

Longformer 是原始变换器架构的进化版,专门用于克服标准变换器在处理长序列时的计算限制。传统的变换器采用的是二次复杂度的完全自我注意,而 Longformer 则引入了稀疏注意模式,以实现线性复杂度。这使得 Longformer 在处理涉及长距离依赖关系的任务时更具可扩展性和效率,同时还保留了变换器架构在捕捉上下文关系方面的核心优势。对于输入序列较短的任务,标准转换器可能已经足够,但对于需要处理大量上下文关系的应用,Longformer 则具有显著优势。您可以探索其他模型架构,如YOLO-NAS 或RT-DETRUltralytics 等其他模型架构,这些架构设计用于高效、准确的物体检测任务,展示了人工智能模型架构的多样性。

阅读全部