术语表

视觉转换器(ViT)

了解视觉变形器 (ViT) 如何通过自我关注彻底改变计算机视觉,在分类、检测和分割任务中表现出色。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

视觉变压器(ViT)通过将传统上用于自然语言处理(NLP)的基于变压器的架构引入视觉任务,给计算机视觉带来了革命性的变化。与依赖卷积运算的卷积神经网络(CNN)不同,ViT 利用自注意机制来分析和处理图像数据,为应对各种视觉挑战提供了一种更灵活、更可扩展的方法。

视觉变形器的工作原理

ViT 将输入图像分割成固定大小的较小片段,将其扁平化,并将每个片段视为一个 "标记",类似于 NLP 中的单词。然后将这些标记嵌入到高维向量中,并通过多层变换编码器,其中的自我注意机制可使模型专注于图像的相关部分。这种结构使 ViTs 能够有效捕捉局部和全局依赖关系。

ViT 依靠位置编码来保留空间信息,这是传统变换器所缺乏的图像数据的一个重要方面。通过学习斑块之间的关系,ViTs 可以在图像分类、物体检测和分割等任务中实现最先进的性能。

与 CNN 相比的优势

  1. 可扩展性:与 CNN 相比,ViT 能更好地扩展大型数据集,因此适合需要高分辨率图像或多样化数据集的应用。
  2. 全局背景:自我注意机制使 ViTs 能够为整个图像的长距离依赖关系建模,而 CNNs 则仅限于局部感受野。
  3. 灵活性:利用ImageNet 等预先训练好的模型,ViT 可以在不同的任务中进行微调,只需对架构进行最小的改动。

有关变压器工作原理的更多信息,请参阅变压器术语表条目

视觉变压器的应用

图像分类

视觉转换器利用其捕捉全局图像特征的能力,在图像分类任务中表现出色。经过预先训练的 ViT(如Google的 Vision Transformer)在 ImageNet 等基准测试中达到了最先进的准确度。例如,ViT 被应用于医疗保健领域,对医疗图像进行分类,帮助疾病诊断。

利用Ultralytics YOLO 模型探索图像分类任务。

物体检测

物体检测管道中越来越多地使用 ViT,以取代传统的基于卷积的骨干网络。DETR(DEtection TRansformer)等模型证明了 ViTs 在不依赖区域建议网络的情况下检测和定位物体的有效性。

探索物体检测解决方案 Ultralytics YOLO.

图像分割

通过利用自我注意力,ViT 为语义和实例分割提供了准确高效的解决方案。其应用包括自动驾驶,在自动驾驶中,精确的像素级分割对于检测路标、行人和车辆至关重要。

进一步了解图像分割中的分割任务。

真实案例

  1. 医疗保健:在医学成像中,虚拟现实技术可用于肿瘤检测和器官分割等任务。它们分析高分辨率图像的能力有助于早期诊断和治疗规划。例如,Ultralytics YOLO11 的医疗成像功能可通过基于 ViT 的骨干网得到增强,从而提高精确度。

  2. 自动驾驶汽车:ViT 为自动驾驶汽车的视觉系统提供动力,实现对障碍物、车道标记和交通标志的实时检测。它们对全局环境的感知增强了安全性和决策能力。

通过视觉人工智能解决方案,探索人工智能在自动驾驶中的更多应用。

挑战和考虑因素

虽然虚拟技术具有很大的优势,但也面临着挑战:

  • 数据要求:ViT 在大型数据集上的表现最为出色,因为其自我关注机制需要大量数据才能有效推广。
  • 计算成本:由于 ViTs 在自我注意方面的二次方复杂性,对其进行训练需要大量计算资源。

为了解决这些问题,人们引入了将 ViTs 与 CNNs 结合起来的混合模型等方法,以及补丁合并等技术,以提高 ViTs 的效率。

相关概念

  • 变压器ViT 是变压器的一种特殊应用,最初是为 NLP 设计的。了解有关变压器的更多信息。
  • 自我关注:ViTs 的核心机制,使他们能够专注于图像的不同部分。探索自我注意力,加深理解。

ViT 不断推动计算机视觉的发展,为各行各业提供创新解决方案。借助Ultralytics HUB 等工具,开发人员可以探索 ViT 在实际应用中的潜力,简化部署并扩展人工智能解决方案。

阅读全部