视觉变压器(ViT)通过将传统上用于自然语言处理(NLP)的基于变压器的架构引入视觉任务,给计算机视觉带来了革命性的变化。与依赖卷积运算的卷积神经网络(CNN)不同,ViT 利用自注意机制来分析和处理图像数据,为应对各种视觉挑战提供了一种更灵活、更可扩展的方法。
ViT 将输入图像分割成固定大小的较小片段,将其扁平化,并将每个片段视为一个 "标记",类似于 NLP 中的单词。然后将这些标记嵌入到高维向量中,并通过多层变换编码器,其中的自我注意机制可使模型专注于图像的相关部分。这种结构使 ViTs 能够有效捕捉局部和全局依赖关系。
ViT 依靠位置编码来保留空间信息,这是传统变换器所缺乏的图像数据的一个重要方面。通过学习斑块之间的关系,ViTs 可以在图像分类、物体检测和分割等任务中实现最先进的性能。
有关变压器工作原理的更多信息,请参阅变压器术语表条目。
视觉转换器利用其捕捉全局图像特征的能力,在图像分类任务中表现出色。经过预先训练的 ViT(如Google的 Vision Transformer)在 ImageNet 等基准测试中达到了最先进的准确度。例如,ViT 被应用于医疗保健领域,对医疗图像进行分类,帮助疾病诊断。
利用Ultralytics YOLO 模型探索图像分类任务。
物体检测管道中越来越多地使用 ViT,以取代传统的基于卷积的骨干网络。DETR(DEtection TRansformer)等模型证明了 ViTs 在不依赖区域建议网络的情况下检测和定位物体的有效性。
探索物体检测解决方案 Ultralytics YOLO.
通过利用自我注意力,ViT 为语义和实例分割提供了准确高效的解决方案。其应用包括自动驾驶,在自动驾驶中,精确的像素级分割对于检测路标、行人和车辆至关重要。
进一步了解图像分割中的分割任务。
医疗保健:在医学成像中,虚拟现实技术可用于肿瘤检测和器官分割等任务。它们分析高分辨率图像的能力有助于早期诊断和治疗规划。例如,Ultralytics YOLO11 的医疗成像功能可通过基于 ViT 的骨干网得到增强,从而提高精确度。
自动驾驶汽车:ViT 为自动驾驶汽车的视觉系统提供动力,实现对障碍物、车道标记和交通标志的实时检测。它们对全局环境的感知增强了安全性和决策能力。
通过视觉人工智能解决方案,探索人工智能在自动驾驶中的更多应用。
虽然虚拟技术具有很大的优势,但也面临着挑战:
为了解决这些问题,人们引入了将 ViTs 与 CNNs 结合起来的混合模型等方法,以及补丁合并等技术,以提高 ViTs 的效率。
ViT 不断推动计算机视觉的发展,为各行各业提供创新解决方案。借助Ultralytics HUB 等工具,开发人员可以探索 ViT 在实际应用中的潜力,简化部署并扩展人工智能解决方案。