术语表

变压器

了解 Transformer 架构如何彻底改变人工智能,助力 NLP、计算机视觉和高级 ML 任务取得突破性进展。

变形金刚是一种革命性的神经网络架构,已成为现代人工智能(AI)的基石,尤其是在自然语言处理(NLP)和最近的计算机视觉(CV)领域。谷歌研究人员在 2017 年的论文"Attention Is All You Need "中介绍了这一架构,其关键创新在于自我关注机制,该机制允许模型权衡输入序列中不同单词或部分内容的重要性。这使它能够比以前的架构更有效地捕捉长程依赖关系和上下文关系。这种设计还允许大规模并行化,从而有可能在海量数据集上训练更大的模型,导致大型语言模型(LLM)的兴起。

变压器的工作原理

递归神经网络(RNN)等顺序模型不同,Transformers 可一次性处理整个数据序列。其核心理念是并行处理所有元素,这大大加快了在GPU 等现代硬件上的训练速度。

为了在不重复的情况下理解序列顺序,Transformers 使用了一种叫做位置编码的技术,它将每个元素(如句子中的一个单词)的位置信息添加到其嵌入中。然后,自我关注层会处理这些嵌入,让每个元素都能 "审视 "序列中的其他元素,并确定哪些元素与理解其含义最相关。这种全局上下文意识对于复杂任务来说是一大优势。PyTorchTensorFlow等框架为构建基于 Transformer 的模型提供了广泛支持。

变压器的应用

变形金刚的影响横跨多个领域,推动了语言和视觉任务的进步。

  1. 语言翻译和生成:谷歌翻译等服务使用基于 Transformer 的模型进行高质量机器翻译。该模型可以考虑整个源句,从而生成更流畅、更准确的翻译。同样,GPT-4等模型通过理解上下文来创建连贯的段落、撰写文章或支持高级聊天机器人,从而在文本生成方面表现出色。
  2. 计算机视觉视觉转换器(ViT)将架构调整为基于图像的任务。它将图像视为一连串的斑块,并利用自我关注来模拟它们之间的关系。这种方法用于RT-DETR等模型中的物体检测,了解场景的全局背景有助于更准确地识别物体,尤其是在杂乱的环境中。您可以查看RT-DETR 和 YOLOv8 的对比,了解它们的架构差异。

变压器与其他架构

将变形金刚与其他常见的神经网络架构区分开来很有帮助:

  • 变换器与 RNN:RNNs 是按顺序处理数据的,这使得它们天生速度较慢,而且容易受到梯度消失问题的影响,从而遗忘长序列中的早期信息。变换器通过并行处理和自我关注克服了这一问题,能更有效地捕捉长距离依赖关系。
  • 变形器与 CNN: 卷积神经网络 (CNN)对于视觉任务来说非常高效,它使用卷积滤波器来识别像素等网格状数据中的局部模式。它们是Ultralytics YOLO系列等模型的基础。相比之下,变换器可以捕捉全局关系,但通常需要更多的数据和计算资源。混合模型结合了 CNN骨干层和 Transformer 层,旨在实现两全其美。

高效变压器变体

最初的 Transformer 完全自我关注的计算成本随着序列长度的增加而呈二次方增长,因此对超长序列而言具有挑战性。因此,我们开发了更高效的变体。

  • Longformer使用滑动窗口关注机制,结合对特定词块的全局关注,以降低计算复杂度。
  • 改革者采用对位置敏感的哈希散列等技术来近似全神贯注,从而提高内存效率。
  • Transformer-XL引入递归机制,允许模型学习超过固定长度的依赖关系,这对自动回归语言建模特别有用。

这些进步不断扩大了 Transformers 对新问题的适用性。Hugging FaceUltralytics HUB等工具和平台使开发人员更容易访问和部署这些强大的模型。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板