ビジョン・トランスフォーマー(ViT)の力を探求しましょう。Ultralytics、自己注意機構とパッチトークン化がCNNを超えたコンピュータビジョンに革命をもたらす仕組みを学びます。
ビジョン・トランスフォーマー(ViT)は、自然言語処理(NLP)向けに設計された自己注意機構を視覚タスク解決に適応させた深層学習アーキテクチャである。局所的なピクセルグリッドの階層を通じて画像を処理する従来の畳み込みニューラルネットワーク(CNN)とは異なり、ViTは画像を離散的なパッチの列として扱う。 このアプローチは画期的な研究論文「An Image is Worth 16x16 Words」によって普及した。同論文は、純粋なトランスフォーマーアーキテクチャが畳み込み層に依存せずともコンピュータビジョン(CV)分野で最先端性能を達成できることを実証した。グローバルアテンションを活用することで、ViTは最下層から画像全体にわたる長距離依存関係を捕捉できる。
ViTの根本的な革新は、入力データの構造化方法にある。画像を標準的なトランスフォーマーと互換性のある形式にするため、モデルは視覚情報をベクトルの列に分解する。これは言語モデルが単語の文を処理する方法を模倣している。
両アーキテクチャとも視覚データの理解を目的としているが、その動作原理は大きく異なる。 CNNは「変換不変性」として知られる強い「帰納的バイアス」を有しており、これは局所特徴(エッジやテクスチャなど)が位置に関係なく重要であると本質的に仮定していることを意味する。これによりCNNはデータ効率が高く、小規模なデータセットでも効果を発揮する。
逆に、ビジョントランスフォーマーは画像固有のバイアスが少ない。これらはJFT-300MやフルImageNetなどの膨大な訓練データを用いて、空間的関係をゼロから学習しなければならない。 ImageNet データセットなど。これにより訓練の計算負荷は高まるが、 ViTは驚くほど優れたスケーラビリティを発揮する。十分なデータと 計算リソースがあれば、局所的な畳み込みでは見逃される複雑な全体構造を捉えることでCNNを上回る性能を発揮し得る。
グローバルな文脈を理解する能力により、ViTは複雑で重大な環境において特に有用である。
について ultralytics ライブラリはトランスフォーマーベースのアーキテクチャをサポートしており、特に
RT-DETR リアルタイム検出トランスフォーマー). 一方で
旗艦 YOLO26 エッジデバイスでは速度と精度のバランスから好まれることが多いが、RT-DETR グローバルコンテキストを優先するシナリオにおいて強力な代替手段RT-DETR 。
以下の Python の例は、事前学習済み Transformerベースのモデルを読み込み、推論を実行する方法を示しています:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
ViTの高計算コストに対処するため、研究は急速に進化している。 FlashAttentionのような技術により、これらのモデルは高速化され、 メモリ効率も向上している。さらに、CNNの効率性とトランスフォーマーのアテンション機能を組み合わせた ハイブリッドアーキテクチャが一般的になりつつある。 これらの高度なワークフローを管理したいチーム向けに、 Ultralytics データアノテーション、 クラウド経由での複雑なモデルのトレーニング、 多様なエンドポイントへのデプロイを統合環境で提供します。