术语表

自我关注

探索人工智能中自我关注的力量,用上下文感知的精确性彻底改变 NLP、计算机视觉和语音识别。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

自我关注是现代人工智能中的一个关键机制,在极具影响力的论文《注意力是你所需要的一切》(Attention Is All You Need)中所介绍的Transformer架构中尤为突出。它允许模型在处理信息时权衡单个输入序列中不同部分的重要性,从而更深入地理解数据本身的上下文和关系。这与早期的注意力方法形成了鲜明对比,早期的注意力方法主要关注不同输入和输出序列之间的关系。它对自然语言处理产生了变革性的影响,在计算机视觉(CV)领域也越来越重要。

自我关注如何发挥作用

自我注意力背后的核心理念是模仿人类在考虑上下文的同时关注信息特定部分的能力。例如,在阅读一个句子时,一个单词的含义往往取决于它周围的单词。自我注意力能让人工智能模型评估输入序列中所有元素(如单词或图像片段)之间的关系。它会计算每个元素相对于序列中其他元素的 "注意力分数"。这些分数决定了在生成特定元素的输出表示时,每个元素应得到多少 "关注 "或权重,从而有效地让模型专注于输入中最相关的部分,以理解上下文和长期依赖关系。这一过程包括为每个输入元素创建查询、键和值表示,这些表示通常来自输入嵌入

主要优势

与老式的序列处理技术相比,自我关注技术具有多项优势:

  • 捕捉长距离依赖关系: 卷积神经网络 (CNN)专注于局部特征,而递归神经网络 (RNN)则由于梯度消失等问题,在处理长序列时显得力不从心,与之不同的是,自注意力可以直接模拟序列中相距甚远的元素之间的关系。
  • 并行化:不同元素间的自我关注计算可并行执行,与 RNN 固有的顺序性相比,可显著加快训练和推理速度。这种效率对于在ImageNet 等大型数据集上训练大型模型至关重要。
  • 提高语境理解能力:通过权衡输入各部分的相关性,模型可以生成语境更丰富的表征,从而提高完成复杂任务的性能。

自我关注与传统关注

虽然两者都属于注意机制的范畴,但自我注意与传统注意有很大不同。传统注意力通常计算两个不同序列元素之间的注意力得分,例如在机器翻译过程中将源句中的单词与目标句中的单词联系起来。而自我注意计算的是单个序列的注意分数,将输入元素与同一输入的其他元素联系起来。在需要深入理解输入结构和上下文的任务中,这种内部关注是其有效的关键。

人工智能的应用

自我关注是许多跨领域先进模型的基础:

未来发展方向

研究不断完善自我注意机制,旨在提高计算效率(例如FlashAttention和稀疏注意变体等方法)和扩大适用性。随着人工智能模型日益复杂,自我注意有望继续成为一项基石技术,推动从专业人工智能应用到人工通用智能(AGI)等领域的进步。Ultralytics HUB等工具和平台有助于训练部署包含这些先进技术的模型。

阅读全部