术语表

注意机制

探索注意力机制如何通过增强 NLP 和计算机视觉任务(如翻译、物体检测等)来彻底改变人工智能!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

注意力机制是人工智能(AI)机器学习(ML)中使用的一种技术,它模仿人类的认知注意力。它能让模型在进行预测或生成输出时,有选择性地专注于输入数据中最相关的部分,如句子中的特定单词或图像中的特定区域。这种选择性集中并不是对所有输入部分一视同仁,而是能提高性能,尤其是在处理长文本序列或高分辨率图像等大量信息时。这使得模型能够更有效地处理复杂任务,也是开创性论文《注意力就是你所需要的一切》所推广的一项关键创新,该论文引入了Transformer架构。

注意力机制如何运作

注意力机制不是统一处理整个输入序列或图像,而是为不同的输入片段分配 "注意力分数 "或权重。这些分数表示每个片段对当前特定任务(例如预测句子中的下一个单词或对图像中的物体进行分类)的重要性或相关性。得分较高的片段在计算过程中会得到模型更多的关注。这种动态分配允许模型在每个步骤中优先处理关键信息,从而获得更准确、更了解上下文的结果。这与标准递归神经网络(RNN)等老式架构形成鲜明对比,后者按顺序处理数据,由于梯度消失等问题,很难记住长序列中较早部分的信息。

相关性和类型

注意力机制已成为许多先进模型的基本组成部分,对自然语言处理(NLP)计算机视觉(CV)等领域产生了重大影响。它们有助于克服传统模型在处理长距离依赖关系和捕捉数据内部复杂关系方面的局限性。主要类型和相关概念包括

  • 自我关注:允许模型权衡同一输入序列中不同部分的相对重要性。这是变形金刚的核心机制。
  • 交叉注意:使模型能够关注另一序列的相关部分,常用于序列到序列的任务,如翻译。
  • 区域注意力:一种为提高效率而设计的变体,将注意力集中在较大的区域,如Ultralytics YOLO12 等模型。这可以降低与大型特征图上的标准自我注意相关的计算成本,这在物体检测中很常见。

BERTGPT等模型在执行 NLP 任务时严重依赖自我注意,而视觉转换器(ViT)则将这一概念用于图像分类等图像分析任务。

注意力与其他机制

将注意力机制与其他常见的神经网络组件区分开来很有帮助:

  • 卷积神经网络(CNN):卷积神经网络通常使用固定大小的滤波器(内核)来处理图像等数据中的局部空间层次。虽然能有效捕捉局部模式,但如果没有专门的架构,它们在处理长距离依赖关系时可能会遇到困难。注意力,尤其是自我注意力,可以更直接地捕捉整个输入的全局关系。
  • 递归神经网络(RNN): RNN逐步处理序列数据,并保持一个隐藏状态。虽然标准的 RNN 专为序列而设计,但在处理长依赖关系时却面临挑战。注意力机制通常与 RNNs 一起使用,或作为 Transformer 架构的一部分,通过允许模型回看过去的相关输入(无论距离多远),明确地解决了这一问题。现代框架,如 PyTorchTensorFlow等现代框架支持所有这些架构的实现。

实际应用

注意力机制是众多现代人工智能应用不可或缺的一部分:

Ultralytics HUB等平台允许用户训练、验证和部署高级模型,包括那些包含注意力机制的模型,通常利用预训练模型权重的平台,如 Hugging Face.

阅读全部