了解 Transformer 架构如何彻底改变人工智能,助力 NLP、计算机视觉和高级 ML 任务取得突破性进展。
变形器代表了一种关键的神经网络架构,它极大地推动了人工智能(AI)和机器学习(ML)领域的发展,尤其是在自然语言处理(NLP)领域,而且在计算机视觉领域的应用也日益广泛。在极具影响力的论文《注意力就是你所需要的一切》中,神经网络被引入到文本或时间序列等序列数据的处理中,它使用一种称为 "自我注意力 "的机制,允许模型动态权衡不同输入部分的重要性。这种方法克服了循环神经网络(RNN)等旧架构的主要局限性。
Transformers 的核心创新在于自我关注机制。递归神经网络(RNN)是按顺序处理输入的,由于梯度消失等问题,它们在处理长序列时会很吃力,而 Transformers 则不同,它可以同时考虑输入序列的所有部分。这种并行处理能力大大加快了在GPU 等现代硬件上的训练速度。典型的卷积神经网络 (CNN)通过固定大小的内核专注于局部特征,与之不同的是,注意力让 Transformers 能够捕捉整个输入(无论是文本还是图像补丁)中的长距离依赖关系和上下文关系。
变换器在捕捉上下文和处理长序列方面非常有效,因此已成为许多先进人工智能模型的基础。它们的可并行性使GPT-3和GPT-4 等具有数十亿参数的大型模型的训练成为可能,从而在生成式人工智能领域取得突破性进展。这种可扩展性和性能使变形金刚成为各种人工智能任务取得进展的核心,推动了整个研究和行业的创新。许多流行的变形金刚模型可通过以下平台随时获取 Hugging Face等平台,并使用 PyTorch和 TensorFlow.
变压器用途广泛,可为众多人工智能应用提供动力:
与 RNNs 相比,变换器能更好地处理长距离依赖关系,并具有出色的并行性,因此更适合大型数据集和模型。传统的 CNN 擅长利用卷积捕捉局部空间层次结构,与之相比,变换器(尤其是 ViT)可以通过自我关注更有效地模拟数据中的全局关系。不过,混合架构往往结合了二者的优势,使用 CNN 进行初始特征提取,使用变换器进行上下文理解,如RT-DETR 等模型。这些架构之间的选择往往取决于具体任务、数据特征和可用计算资源,通常涉及从Ultralytics HUB 等平台上提供的预训练模型进行迁移学习等技术。