用語集

ヴィジョン・トランスフォーマー(ViT)

ビジョントランスフォーマー(ViT)が、分類、検出、セグメンテーションの各タスクで優れた自己認識能力を発揮し、コンピュータビジョンにどのような革命をもたらすかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ヴィジョン・トランスフォーマー(ViT)は、自然言語処理(NLP)で伝統的に使用されてきたトランスフォーマーベースのアーキテクチャを視覚タスクに導入することで、コンピュータ・ビジョンに革命をもたらした。畳み込み演算に依存する畳み込みニューラルネットワーク(CNN)とは異なり、ViTは画像データの解析と処理に自己アテンション機構を使用し、様々な視覚課題に対してより柔軟でスケーラブルなアプローチを提供する。

ヴィジョン・トランスフォーマーの仕組み

ViTは入力画像を小さな固定サイズのパッチに分割し、それらを平坦化し、各パッチを「トークン」として扱う。これらのトークンは高次元ベクトルに埋め込まれ、何層もの変換エンコーダーを通過する。この構造により、ViTは局所的依存性と大域的依存性の両方を効果的に捉えることができる。

ViTは、従来の変換器には欠けていた画像データの重要な側面である空間情報を保持するために、位置エンコーディングに依存している。パッチ間の関係を学習することで、ViTは画像分類、物体検出、セグメンテーションなどのタスクにおいて最先端の性能を達成することができる。

CNNを超える利点

  1. スケーラビリティ:ViTはCNNに比べ、大規模なデータセットに対応できるため、高解像度の画像や多様なデータセットを必要とするアプリケーションに適している。
  2. グローバルな文脈:CNNが局所的な受容野に限定されるのに対し、ViTは自己注意メカニズムにより、画像全体の長距離依存関係をモデル化できる。
  3. 柔軟性:ViTsは、ImageNetのような事前に訓練されたモデルを活用することで、最小限のアーキテクチャ変更で異なるタスクに微調整することができます。

変圧器の仕組みについては、変圧器用語集をご覧ください。

ビジョントランスの用途

画像分類

ViTは、大域的な画像特徴を捉える能力を活用することで、画像分類タスクに優れている。Google「Vision Transformer」のような事前に訓練されたViTは、ImageNetのようなベンチマークで最先端の精度を達成している。例えば、ViTは医療画像の分類に応用され、病気の診断に役立っている。

Ultralytics YOLO モデルによる画像分類タスクを探求する。

物体検出

ViTは、従来の畳み込みベースのバックボーンに代わって、物体検出パイプラインでますます使用されるようになってきている。DETR (DEtection TRansformer)のようなモデルは、領域提案ネットワークに頼らずに物体を検出し、ローカライズするViTの有効性を実証している。

物体検出ソリューション Ultralytics YOLO.

画像分割

自己注意を活用することで、ViTはセマンティックセグメンテーションとインスタンスセグメンテーションのための正確で効率的なソリューションを提供する。アプリケーションには、道路標識、歩行者、車両を検出するために正確なピクセルレベルのセグメンテーションが重要な自律走行が含まれる。

画像セグメンテーションにおけるセグメンテーションタスクの詳細については、こちらをご覧ください。

実例

  1. ヘルスケアViTは、腫瘍の検出や臓器のセグメンテーションなどのタスクに医療用画像処理で採用されている。高解像度画像を解析する能力は、早期診断や治療計画に役立つ。例えば、Ultralytics YOLO11 の医療用画像処理機能は、ViTベースのバックボーンによって精度を向上させることができる。

  2. 自律走行車ViTsは、自律走行車のビジョンシステムを駆動し、障害物、車線標識、交通標識のリアルタイム検出を可能にする。そのグローバルな状況認識は、安全性と意思決定を強化します。

ビジョンAIソリューションで、自動運転におけるAIの応用をさらに探求してください。

課題と考察

ViTには大きな利点がある一方で、課題もある:

  • データ要件:ViTは大規模なデータセットで最高のパフォーマンスを発揮する。なぜなら、その自己認識メカニズムが効果的に一般化するためには膨大なデータを必要とするからである。
  • 計算コスト:ViTsのトレーニングには、自己注意力が2次関数的に複雑になるため、かなりの計算資源が必要となる。

このような問題に対処するため、ViTとCNNを組み合わせたハイブリッドモデルや、ViTをより効率的にするパッチマージングのような技術が導入されている。

関連概念

  • トランスフォーマーViTsは、NLPのために独自に設計されたトランスの特殊なアプリケーションです。トランスフォーマーについてもっと知る。
  • 自己注意:ViTsの核となるメカニズムで、イメージのさまざまな部分に焦点を合わせることができる。より深い理解のために自己注意を探求する。

ViTsは、コンピュータビジョンの限界を押し広げ続け、業界全体に革新的なソリューションを提供しています。Ultralytics HUBのようなツールを使用することで、開発者は実世界のアプリケーションでViTsの可能性を追求し、AIソリューションの展開と拡張を簡素化することができます。

すべて読む