探索视觉变换器(ViT)的强大功能。了解自注意力机制与补丁分词技术如何通过Ultralytics革新计算机视觉领域,超越卷积神经网络(CNNs)的局限。
视觉Transformer ViT)是一种深度学习架构,它将原本为自然语言处理(NLP)设计的自我注意机制应用于解决视觉任务。与通过分层局部像素网格处理图像的传统卷积神经网络(CNN)不同,ViT将图像视为离散补丁序列。 该方法由开创性论文《一张图片值16×16个单词》推广,该研究证明transformer 无需依赖卷积层即可在计算机视觉(CV)领域达到顶尖性能。通过利用全局注意力机制,ViT自第一层起就能捕捉整幅图像中的长程关联。
ViT的核心创新在于其输入数据的结构化方式。为使图像与标准 Transformer,该模型将视觉信息 分解为向量序列,其处理方式与语言模型处理词句的机制如出一辙。
虽然两种架构都致力于理解视觉数据,但在运作理念上存在显著差异。 卷积神经网络(CNN)具有强烈的"归纳偏好",即平移不变性,这意味着它们本质上认为局部特征(如边缘和纹理)无论位置如何都至关重要。这种特性使CNN在小规模数据集上具有极高的数据效率和有效性。
相反地,视觉变换器具有较少的图像特异性偏差。它们必须从零开始学习空间关系, 利用海量训练数据(如JFT-300M或完整的 ImageNet 数据集。虽然这使得训练过程计算量更大, 但使视觉变换器具备卓越的可扩展性;在充足数据和 计算资源支持下,它们能捕捉局部卷积可能遗漏的复杂全局结构,从而超越卷积神经网络的性能。
理解全球语境的能力使视觉化转换器(ViTs)在复杂且高风险的环境中尤为实用。
"(《世界人权宣言》) ultralytics 该库支持Transformer架构,最显著的是
实时检测TransformerRT-DETR ). 尽管
旗舰 YOLO26 由于在边缘设备上兼顾速度与精度的平衡性RT-DETR 常被优先选用,但对于优先考虑全局上下文的场景,RT-DETR 强大的替代方案。
以下 Python 示例演示了如何加载预训练的 Transformer并执行推理:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
为解决视觉变换器(ViTs)的高计算成本问题,相关研究正快速发展。诸如闪电注意力(FlashAttention)等技术正使这些模型运行更快、内存效率更高。此外,融合卷积神经网络(CNNs)效率与变压器(Transformers)注意力机制的混合架构正日益普及。 对于需要管理这些先进工作流的团队Ultralytics 提供统一环境,支持数据标注、通过云端训练复杂模型,并将其部署至各类终端节点。