探索人工智能中自我关注的力量,用上下文感知的精确性彻底改变 NLP、计算机视觉和语音识别。
自我关注是现代人工智能(AI)中的一个关键机制,在极具影响力的论文《关注就是一切》(Attention Is All You Need)中介绍的变形金刚架构中尤为突出。它允许模型在处理信息时权衡单个输入序列中不同部分的重要性,从而更深入地理解数据本身的上下文和关系。这与早期的注意力方法形成了鲜明对比,早期的注意力方法主要关注不同输入和输出序列之间的关系。它对自然语言处理(NLP)产生了变革性的影响,在计算机视觉(CV)领域也越来越重要。
自我注意力背后的核心理念是模仿人类在考虑上下文的同时关注信息特定部分的能力。例如,在阅读一个句子时,一个单词的含义往往取决于它周围的单词。自我注意力能让人工智能模型评估输入序列中所有元素(如单词或图像片段)之间的关系。它会计算每个元素相对于序列中其他元素的 "注意力分数"。这些分数决定了在生成特定元素的输出表示时,每个元素应得到多少 "关注 "或权重,从而有效地让模型专注于输入中最相关的部分,以理解上下文和长期依赖关系。这一过程包括为每个输入元素创建查询、键和值表示,这些表示通常来自输入嵌入,使用的框架包括 PyTorch或 TensorFlow.
与递归神经网络(RNN)和卷积神经网络(CNN)等老式序列处理技术相比,自注意具有多项优势:
虽然两者都属于注意机制的范畴,但自我注意与传统注意有很大不同。传统注意力通常计算两个不同序列元素之间的注意力得分,例如在机器翻译(如English )过程中将源句中的单词与目标句中的单词联系起来。而自我注意力则是在单一序列内计算注意力分数,将输入元素与同一输入的其他元素联系起来。与通过卷积纯粹关注局部特征的方法不同,这种内部关注是其在需要深入理解输入结构和上下文的任务中取得成效的关键。
自我关注是许多跨领域先进模型的基础:
研究不断完善自我注意机制,旨在提高计算效率(例如FlashAttention和稀疏注意变体等方法)和扩大适用性。随着人工智能模型日益复杂,自我注意有望继续成为一项基石技术,推动从机器人等专业人工智能应用到人工通用智能(AGI)等领域的进步。Ultralytics HUB等工具和平台有助于训练和部署包含这些先进技术的模型,这些模型通常可通过以下资源库获得 Hugging Face.