了解 Transformer 架构如何彻底改变人工智能,助力 NLP、计算机视觉和高级 ML 任务取得突破性进展。
变形金刚是一种革命性的神经网络架构,已成为现代人工智能(AI)的基石,尤其是在自然语言处理(NLP)和最近的计算机视觉(CV)领域。谷歌研究人员在 2017 年的论文"Attention Is All You Need "中介绍了这一架构,其关键创新在于自我关注机制,该机制允许模型权衡输入序列中不同单词或部分内容的重要性。这使它能够比以前的架构更有效地捕捉长程依赖关系和上下文关系。这种设计还允许大规模并行化,从而有可能在海量数据集上训练更大的模型,导致大型语言模型(LLM)的兴起。
与递归神经网络(RNN)等顺序模型不同,Transformers 可一次性处理整个数据序列。其核心理念是并行处理所有元素,这大大加快了在GPU 等现代硬件上的训练速度。
为了在不重复的情况下理解序列顺序,Transformers 使用了一种叫做位置编码的技术,它将每个元素(如句子中的一个单词)的位置信息添加到其嵌入中。然后,自我关注层会处理这些嵌入,让每个元素都能 "审视 "序列中的其他元素,并确定哪些元素与理解其含义最相关。这种全局上下文意识对于复杂任务来说是一大优势。PyTorch和TensorFlow等框架为构建基于 Transformer 的模型提供了广泛支持。
变形金刚的影响横跨多个领域,推动了语言和视觉任务的进步。
将变形金刚与其他常见的神经网络架构区分开来很有帮助:
最初的 Transformer 完全自我关注的计算成本随着序列长度的增加而呈二次方增长,因此对超长序列而言具有挑战性。因此,我们开发了更高效的变体。
这些进步不断扩大了 Transformers 对新问题的适用性。Hugging Face和Ultralytics HUB等工具和平台使开发人员更容易访问和部署这些强大的模型。