术语表

变压器

了解 Transformer 架构如何彻底改变人工智能，助力 NLP、计算机视觉和高级 ML 任务取得突破性进展。

变形金刚是一种革命性的神经网络架构，已成为现代人工智能（AI）的基石，尤其是在自然语言处理（NLP）和最近的计算机视觉（CV）领域。谷歌研究人员在 2017 年的论文"Attention Is All You Need "中介绍了这一架构，其关键创新在于自我关注机制，该机制允许模型权衡输入序列中不同单词或部分内容的重要性。这使它能够比以前的架构更有效地捕捉长程依赖关系和上下文关系。这种设计还允许大规模并行化，从而有可能在海量数据集上训练更大的模型，导致大型语言模型（LLM）的兴起。

变压器的工作原理

与递归神经网络（RNN）等顺序模型不同，Transformers 可一次性处理整个数据序列。其核心理念是并行处理所有元素，这大大加快了在GPU 等现代硬件上的训练速度。

为了在不重复的情况下理解序列顺序，Transformers 使用了一种叫做位置编码的技术，它将每个元素（如句子中的一个单词）的位置信息添加到其嵌入中。然后，自我关注层会处理这些嵌入，让每个元素都能 "审视 "序列中的其他元素，并确定哪些元素与理解其含义最相关。这种全局上下文意识对于复杂任务来说是一大优势。PyTorch和TensorFlow等框架为构建基于 Transformer 的模型提供了广泛支持。

变压器的应用

变形金刚的影响横跨多个领域，推动了语言和视觉任务的进步。

语言翻译和生成：谷歌翻译等服务使用基于 Transformer 的模型进行高质量机器翻译。该模型可以考虑整个源句，从而生成更流畅、更准确的翻译。同样，GPT-4等模型通过理解上下文来创建连贯的段落、撰写文章或支持高级聊天机器人，从而在文本生成方面表现出色。
计算机视觉：视觉转换器（ViT）将架构调整为基于图像的任务。它将图像视为一连串的斑块，并利用自我关注来模拟它们之间的关系。这种方法用于RT-DETR等模型中的物体检测，了解场景的全局背景有助于更准确地识别物体，尤其是在杂乱的环境中。您可以查看RT-DETR 和 YOLOv8 的对比，了解它们的架构差异。

变压器与其他架构

将变形金刚与其他常见的神经网络架构区分开来很有帮助：

变换器与 RNN：RNNs 是按顺序处理数据的，这使得它们天生速度较慢，而且容易受到梯度消失问题的影响，从而遗忘长序列中的早期信息。变换器通过并行处理和自我关注克服了这一问题，能更有效地捕捉长距离依赖关系。
变形器与 CNN： 卷积神经网络 (CNN)对于视觉任务来说非常高效，它使用卷积滤波器来识别像素等网格状数据中的局部模式。它们是Ultralytics YOLO系列等模型的基础。相比之下，变换器可以捕捉全局关系，但通常需要更多的数据和计算资源。混合模型结合了 CNN骨干层和 Transformer 层，旨在实现两全其美。

高效变压器变体

最初的 Transformer 完全自我关注的计算成本随着序列长度的增加而呈二次方增长，因此对超长序列而言具有挑战性。因此，我们开发了更高效的变体。

Longformer：使用滑动窗口关注机制，结合对特定词块的全局关注，以降低计算复杂度。
改革者采用对位置敏感的哈希散列等技术来近似全神贯注，从而提高内存效率。
Transformer-XL：引入递归机制，允许模型学习超过固定长度的依赖关系，这对自动回归语言建模特别有用。

这些进步不断扩大了 Transformers 对新问题的适用性。Hugging Face和Ultralytics HUB等工具和平台使开发人员更容易访问和部署这些强大的模型。

变压器

灵活的企业许可解决方案为您的创新提供动力

使用 Ultralytics YOLO 在数秒内训练人工智能模型

使用 Ultralytics HUB 简单训练 YOLO 模型

变压器的工作原理

变压器的应用

变压器与其他架构

高效变压器变体

在此类别中阅读更多内容

FastVLM：苹果公司推出新的快速视觉语言模型

人在回路机器学习（HITL）释义

利用视觉人工智能实现制造自动化

加入 Ultralytics 社区