Transformerは、2017年にVaswaniらが代表的論文「Attention is All You Need」で紹介したディープラーニングモデルアーキテクチャである。自然言語処理(NLP)の分野に革命をもたらし、コンピュータービジョン(CV)タスクへの応用も増えている。リカレント・ニューラル・ネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)に依存していた以前のモデルとは異なり、トランスフォーマーは入力と出力の間のグローバルな依存関係を描くために、アテンション・メカニズムのみに依存している。
Transformerのアーキテクチャは、エンコーダーとデコーダーの構造に基づいている。エンコーダーは入力シーケンスを処理し、文脈化された表現を生成し、デコーダーはこの表現を使って出力シーケンスを生成する。キーとなる革新的な点は、モデルが入力シーケンスの各パートの重要性を他のすべてのパーツと比較することを可能にする、自己注意メカニズムである。このメカニズムにより、RNNよりも効果的に長距離の依存関係を捉えることができる。
トランスフォーマーは、データを逐次処理するRNNとは異なり、入力データを並列処理する。この並列処理は、文中のすべての単語間の関係を同時に計算する自己注意メカニズムによって可能になる。また、このモデルには、入力シーケンスの単語の順序に関する情報を保持するための位置エンコーディングも組み込まれている。エンコーダーとデコーダーは複数の層で構成され、それぞれが自己注意とフィードフォワードのニューラルネットワークを含む。この層構造により、モデルはデータから複雑なパターンと表現を学習することができる。
トランスフォーマーには、これまでのアーキテクチャーにはない利点がいくつかある。並列にデータを処理できるため、トレーニング時間が大幅に短縮される。自己注意メカニズムにより、長距離の依存関係をより効果的に捉えることができ、文脈の理解を必要とするタスクでの性能向上につながる。さらに、Transformerはスケーラビリティが高く、大規模なデータセットに対して学習することができるため、幅広い用途に適している。この Ultralytics YOLOモデルは、物体検出のために設計された変換器モデルをサポートする。
トランスフォーマーは、機械翻訳、テキスト要約、質問応答など、様々なNLPタスクへの応用に成功している。例えば、Google のBERT(Bidirectional Encoder Representations from Transformers)やOpenAIのGPT(Generative Pre-trained Transformer)は、どちらもトランスフォーマーアーキテクチャに基づいており、数多くのNLPベンチマークで最先端の結果を達成している。コンピュータビジョンでは、Vision Transformer (ViT)のようなモデルが、画像をパッチのシーケンスとして扱うことで、画像分類タスクにおいてTransformerがCNNを凌駕できることを示している。
RNNと比較すると、Transformersは長距離の依存関係を捉えることに優れており、並列処理能力によりはるかに高速に学習することができる。CNNが画像のようなグリッド状のデータを効率的に処理するのに対し、Transformersはより柔軟で、可変長のシーケンスを扱うことができるため、NLPとCVの両方のタスクに適している。テキストを生成し理解することに主眼を置いた大規模言語モデル(LLM)とは異なり、Transformerは言語タスクと視覚タスクの両方を含む、より広い応用範囲を持っている。
Transformerアーキテクチャは、その効率の改善と応用範囲の拡大を目指した継続的な研究により、進化し続けている。スパースアテンションやリニアアテンションといったイノベーションは、自己アテンションの計算コストを削減することを目的としており、Transformerをさらに長いシーケンスに適用することを可能にしている。研究者たちはまた、Transformersの長所をCNNのような他のアーキテクチャと組み合わせて、様々なタスクに秀でたハイブリッドモデルを作り出す方法も模索している。この分野が進歩するにつれて、トランスフォーマーは人工知能(AI)や機械学習(ML)を進歩させる上でますます重要な役割を果たすようになると期待されている。これらの進歩に関する詳細は、Ultralytics ブログでご覧いただけます。