深圳Yolo 视觉
深圳
立即加入
词汇表

视觉Transformer (ViT)

探索视觉变换器(ViT)的强大功能。了解自注意力机制与补丁分词技术如何通过Ultralytics革新计算机视觉领域,超越卷积神经网络(CNNs)的局限。

视觉Transformer ViT)是一种深度学习架构,它将原本为自然语言处理(NLP)设计的自我注意机制应用于解决视觉任务。与通过分层局部像素网格处理图像的传统卷积神经网络(CNN)不同,ViT将图像视为离散补丁序列。 该方法由开创性论文《一张图片值16×16个单词》推广,该研究证明transformer 无需依赖卷积层即可在计算机视觉(CV)领域达到顶尖性能。通过利用全局注意力机制,ViT自第一层起就能捕捉整幅图像中的长程关联。

Vision Transformer 的工作原理

ViT的核心创新在于其输入数据的结构化方式。为使图像与标准 Transformer,该模型将视觉信息 分解为向量序列,其处理方式与语言模型处理词句的机制如出一辙。

  1. 补丁分词:输入图像被划分为固定尺寸的方格网格,通常为16x16像素。每个方格被展平为向量,实质上转化为视觉标记
  2. 线性投影:这些展平后的像素块通过可训练的线性层处理,生成 密集嵌入。该步骤将原始像素值映射到 模型可处理的高维空间中。
  3. 位置编码:由于该架构采用并行处理序列且缺乏对顺序或空间的内在理解,因此在补丁嵌入中添加了可学习的位置编码。这使得模型能够保留每个补丁在原始图像中所属位置的空间信息。
  4. 自我注意机制:序列进入Transformer 后, 自我注意机制使每个补丁能够同时与 所有其他补丁进行交互。这使得网络能够学习全局上下文,理解左上角像素与 右下角像素之间的关联关系。
  5. 分类标记:对于图像分类等任务,通常会在序列开头添加特殊的"类标记"。该标记的最终输出状态作为图像的聚合表示,随后被输入至分类器多层感知器MLP)进行处理。

视觉变换器与卷积神经网络

虽然两种架构都致力于理解视觉数据,但在运作理念上存在显著差异。 卷积神经网络(CNN)具有强烈的"归纳偏好",即平移不变性,这意味着它们本质上认为局部特征(如边缘和纹理)无论位置如何都至关重要。这种特性使CNN在小规模数据集上具有极高的数据效率和有效性。

相反地,视觉变换器具有较少的图像特异性偏差。它们必须从零开始学习空间关系, 利用海量训练数据(如JFT-300M或完整的 ImageNet 数据集。虽然这使得训练过程计算量更大, 但使视觉变换器具备卓越的可扩展性;在充足数据和 计算资源支持下,它们能捕捉局部卷积可能遗漏的复杂全局结构,从而超越卷积神经网络的性能。

实际应用

理解全球语境的能力使视觉化转换器(ViTs)在复杂且高风险的环境中尤为实用。

  • 医学图像分析: 在医疗健康人工智能领域,维特网络(ViTs)被用于分析高分辨率扫描图像,如磁共振成像(MRI)或组织病理学切片。例如在肿瘤检测中,维特网络能够将组织中细微的纹理异常与切片整体的结构变化相关联,从而识别出局部处理可能忽略的恶性模式。
  • 卫星影像与遥感:维特网络(ViTs)在卫星图像分析中表现卓越,尤其擅长处理物体间存在大尺度关联的场景。例如,要将某处森林砍伐点与远处的伐木道路关联起来,就需要理解景观的全局特征——在这类任务中,维特网络凭借其全局感知能力,远胜于标准卷积神经网络(CNNs)有限的感受野。

UltralyticsUltralytics的Transformers

"(《世界人权宣言》) ultralytics 该库支持Transformer架构,最显著的是 实时检测TransformerRT-DETR ). 尽管 旗舰 YOLO26 由于在边缘设备上兼顾速度与精度的平衡性RT-DETR 常被优先选用,但对于优先考虑全局上下文的场景,RT-DETR 强大的替代方案。

以下 Python 示例演示了如何加载预训练的 Transformer并执行推理:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

未来展望

为解决视觉变换器(ViTs)的高计算成本问题,相关研究正快速发展。诸如闪电注意力(FlashAttention)等技术正使这些模型运行更快、内存效率更高。此外,融合卷积神经网络(CNNs)效率与变压器(Transformers)注意力机制的混合架构正日益普及。 对于需要管理这些先进工作流的团队Ultralytics 提供统一环境,支持数据标注、通过云端训练复杂模型,并将其部署至各类终端节点。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入