术语表

自我关注

探索人工智能中自我关注的力量,用上下文感知的精确性彻底改变 NLP、计算机视觉和语音识别。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

自我关注是现代人工智能(AI)中的一个关键机制,在极具影响力的论文《关注就是一切》(Attention Is All You Need)中介绍的变形金刚架构中尤为突出。它允许模型在处理信息时权衡单个输入序列中不同部分的重要性,从而更深入地理解数据本身的上下文和关系。这与早期的注意力方法形成了鲜明对比,早期的注意力方法主要关注不同输入和输出序列之间的关系。它对自然语言处理(NLP)产生了变革性的影响,在计算机视觉(CV)领域也越来越重要。

自我关注如何发挥作用

自我注意力背后的核心理念是模仿人类在考虑上下文的同时关注信息特定部分的能力。例如,在阅读一个句子时,一个单词的含义往往取决于它周围的单词。自我注意力能让人工智能模型评估输入序列中所有元素(如单词或图像片段)之间的关系。它会计算每个元素相对于序列中其他元素的 "注意力分数"。这些分数决定了在生成特定元素的输出表示时,每个元素应得到多少 "关注 "或权重,从而有效地让模型专注于输入中最相关的部分,以理解上下文和长期依赖关系。这一过程包括为每个输入元素创建查询、键和值表示,这些表示通常来自输入嵌入,使用的框架包括 PyTorchTensorFlow.

主要优势

递归神经网络(RNN)卷积神经网络(CNN)等老式序列处理技术相比,自注意具有多项优势:

  • 捕捉远距离依赖关系:它擅长将序列中相距甚远的元素联系起来,克服了 RNNs 中常见的梯度消失等限制。
  • 并行化:可以同时计算所有元素对之间的注意力分数,因此非常适合在GPU等硬件上进行并行处理,从而大大加快模型训练速度。
  • 可解释性:分析注意力权重可以深入了解模型的决策过程,有助于实现可解释的人工智能(XAI)
  • 提高语境理解能力:通过权衡所有输入部分的相关性,模型可以获得对上下文更丰富的理解,从而在推理过程中更好地完成复杂任务。这对于在ImageNet 等大型数据集上进行评估的任务至关重要。

自我关注与传统关注

虽然两者都属于注意机制的范畴,但自我注意与传统注意有很大不同。传统注意力通常计算两个不同序列元素之间的注意力得分,例如在机器翻译(如English )过程中将源句中的单词与目标句中的单词联系起来。而自我注意力则是单一序列计算注意力分数,将输入元素与同一输入的其他元素联系起来。与通过卷积纯粹关注局部特征的方法不同,这种内部关注是其在需要深入理解输入结构和上下文的任务中取得成效的关键。

人工智能的应用

自我关注是许多跨领域先进模型的基础:

未来发展方向

研究不断完善自我注意机制,旨在提高计算效率(例如FlashAttention和稀疏注意变体等方法)和扩大适用性。随着人工智能模型日益复杂,自我注意有望继续成为一项基石技术,推动从机器人等专业人工智能应用到人工通用智能(AGI)等领域的进步。Ultralytics HUB等工具和平台有助于训练部署包含这些先进技术的模型,这些模型通常可通过以下资源库获得 Hugging Face.

阅读全部