ビジョントランスフォーマー(ViT)が、分類、検出、セグメンテーションの各タスクで優れた自己認識能力を発揮し、コンピュータビジョンにどのような革命をもたらすかをご覧ください。
ヴィジョン・トランスフォーマー(ViT)は、自然言語処理(NLP)で伝統的に使用されてきたトランスフォーマーベースのアーキテクチャを視覚タスクに導入することで、コンピュータ・ビジョンに革命をもたらした。畳み込み演算に依存する畳み込みニューラルネットワーク(CNN)とは異なり、ViTは画像データの解析と処理に自己アテンション機構を使用し、様々な視覚課題に対してより柔軟でスケーラブルなアプローチを提供する。
ViTは入力画像を小さな固定サイズのパッチに分割し、それらを平坦化し、各パッチを「トークン」として扱う。これらのトークンは高次元ベクトルに埋め込まれ、何層もの変換エンコーダーを通過する。この構造により、ViTは局所的依存性と大域的依存性の両方を効果的に捉えることができる。
ViTは、従来の変換器には欠けていた画像データの重要な側面である空間情報を保持するために、位置エンコーディングに依存している。パッチ間の関係を学習することで、ViTは画像分類、物体検出、セグメンテーションなどのタスクにおいて最先端の性能を達成することができる。
変圧器の仕組みについては、変圧器用語集をご覧ください。
ViTは、大域的な画像特徴を捉える能力を活用することで、画像分類タスクに優れている。Google「Vision Transformer」のような事前に訓練されたViTは、ImageNetのようなベンチマークで最先端の精度を達成している。例えば、ViTは医療画像の分類に応用され、病気の診断に役立っている。
Ultralytics YOLO モデルによる画像分類タスクを探求する。
ViTは、従来の畳み込みベースのバックボーンに代わって、物体検出パイプラインでますます使用されるようになってきている。DETR (DEtection TRansformer)のようなモデルは、領域提案ネットワークに頼らずに物体を検出し、ローカライズするViTの有効性を実証している。
物体検出ソリューション Ultralytics YOLO.
自己注意を活用することで、ViTはセマンティックセグメンテーションとインスタンスセグメンテーションのための正確で効率的なソリューションを提供する。アプリケーションには、道路標識、歩行者、車両を検出するために正確なピクセルレベルのセグメンテーションが重要な自律走行が含まれる。
画像セグメンテーションにおけるセグメンテーションタスクの詳細については、こちらをご覧ください。
ヘルスケアViTは、腫瘍の検出や臓器のセグメンテーションなどのタスクに医療用画像処理で採用されている。高解像度画像を解析する能力は、早期診断や治療計画に役立つ。例えば、Ultralytics YOLO11 の医療用画像処理機能は、ViTベースのバックボーンによって精度を向上させることができる。
自律走行車ViTsは、自律走行車のビジョンシステムを駆動し、障害物、車線標識、交通標識のリアルタイム検出を可能にする。そのグローバルな状況認識は、安全性と意思決定を強化します。
ビジョンAIソリューションで、自動運転におけるAIの応用をさらに探求してください。
ViTには大きな利点がある一方で、課題もある:
このような問題に対処するため、ViTとCNNを組み合わせたハイブリッドモデルや、ViTをより効率的にするパッチマージングのような技術が導入されている。
ViTsは、コンピュータビジョンの限界を押し広げ続け、業界全体に革新的なソリューションを提供しています。Ultralytics HUBのようなツールを使用することで、開発者は実世界のアプリケーションでViTsの可能性を追求し、AIソリューションの展開と拡張を簡素化することができます。