术语表

自我关注

探索人工智能中自我关注的力量，用上下文感知的精确性彻底改变 NLP、计算机视觉和语音识别。

自我关注是现代人工智能（AI）中的一个关键机制，在极具影响力的论文《关注就是一切》（Attention Is All You Need）中介绍的变形金刚架构中尤为突出。它允许模型在处理信息时权衡单个输入序列中不同部分的重要性，从而更深入地理解数据本身的上下文和关系。这与早期的注意力方法形成了鲜明对比，早期的注意力方法主要关注不同输入和输出序列之间的关系。它对自然语言处理（NLP）产生了变革性的影响，在计算机视觉（CV）领域也越来越重要。

自我关注如何发挥作用

自我注意力背后的核心理念是模仿人类在考虑上下文的同时关注信息特定部分的能力。例如，在阅读一个句子时，一个单词的含义往往取决于它周围的单词。自我注意力能让人工智能模型评估输入序列中所有元素（如单词或图像片段）之间的关系。它会计算每个元素相对于序列中其他元素的 "注意力分数"。这些分数决定了在生成特定元素的输出表示时，每个元素应得到多少 "关注 "或权重，从而有效地让模型专注于输入中最相关的部分，以理解上下文和长期依赖关系。这一过程包括为每个输入元素创建查询、键和值表示，这些表示通常来自输入嵌入，使用的框架包括 PyTorch或 TensorFlow.

主要优势

与递归神经网络（RNN）和卷积神经网络（CNN）等老式序列处理技术相比，自注意具有多项优势：

捕捉远距离依赖关系：它擅长将序列中相距甚远的元素联系起来，克服了 RNNs 中常见的梯度消失等限制。
并行化：可以同时计算所有元素对之间的注意力分数，因此非常适合在GPU等硬件上进行并行处理，从而大大加快模型训练速度。
可解释性：分析注意力权重可以深入了解模型的决策过程，有助于实现可解释的人工智能（XAI）。
提高语境理解能力：通过权衡所有输入部分的相关性，模型可以获得对上下文更丰富的理解，从而在推理过程中更好地完成复杂任务。这对于在ImageNet 等大型数据集上进行评估的任务至关重要。

自我关注与传统关注

虽然两者都属于注意机制的范畴，但自我注意与传统注意有很大不同。传统注意力通常计算两个不同序列元素之间的注意力得分，例如在机器翻译（如English ）过程中将源句中的单词与目标句中的单词联系起来。而自我注意力则是在单一序列内计算注意力分数，将输入元素与同一输入的其他元素联系起来。与通过卷积纯粹关注局部特征的方法不同，这种内部关注是其在需要深入理解输入结构和上下文的任务中取得成效的关键。

人工智能的应用

自我关注是许多跨领域先进模型的基础：

自然语言处理（NLP）： 它为以下机型提供动力伯特和 GPT-4 等组织提供的 OpenAI.
- 示例 1（文本摘要）：在总结长篇文档时，自我关注可以帮助模型识别最突出的句子，并理解文本的不同部分与主题的关系，从而使总结机器人等工具所使用的总结更加连贯、内容更加翔实。
- 例 2（机器翻译）：在翻译 "The cat sat on the mat.It was fluffy "时，自我关注会帮助模型正确地将 "它 "与 "猫 "而不是 "垫子 "联系起来，从而确保翻译的准确性，就像在Google 翻译等服务中看到的那样。这对语言建模至关重要。
计算机视觉 架构，如视觉变形金刚（ViT）对图像补丁进行自我关注。
- 示例 1（物体检测）： Ultralytics YOLO12和 RT-DETR等模型利用基于注意力的机制，聚焦于相关图像区域，即使在杂乱无章的场景中也能提高检测物体的准确性。这在自动驾驶等应用中非常有用，可用于识别行人和其他车辆。技术比较凸显性能差异。
- 示例 2（图像分类）：在对包含多个对象的图像进行分类时，自我关注可使模型权衡不同对象或特征的重要性，从而确定整体场景类别（例如，关注非洲野生动物数据集中野生动物照片中的动物）。
其他领域：它还可用于图像分割、医学图像分析和语音识别。

未来发展方向

研究不断完善自我注意机制，旨在提高计算效率（例如FlashAttention和稀疏注意变体等方法）和扩大适用性。随着人工智能模型日益复杂，自我注意有望继续成为一项基石技术，推动从机器人等专业人工智能应用到人工通用智能（AGI）等领域的进步。Ultralytics HUB等工具和平台有助于训练和部署包含这些先进技术的模型，这些模型通常可通过以下资源库获得 Hugging Face.

自我关注

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO