用語集

変圧器

TransformerのアーキテクチャがAIにどのような革命をもたらし、NLP、コンピュータビジョン、高度なMLタスクのブレークスルーをもたらすかをご覧ください。

トランスフォーマーとは、現代の人工知能（AI）、特に自然言語処理（NLP）や、最近ではコンピュータビジョン（CV）の礎となっている画期的なニューラルネットワークアーキテクチャである。2017年の論文「Attention Is All You Need」でグーグルの研究者たちによって紹介されたこのアーキテクチャの主な革新点は、モデルが入力シーケンスの異なる単語や部分の重要性を量ることを可能にする自己注意メカニズムである。これにより、以前のアーキテクチャよりも長距離の依存関係や文脈上の関係をより効果的に捉えることができる。また、この設計により大規模な並列化が可能になり、膨大なデータセットに対してより大規模なモデルを学習させることができるようになり、大規模言語モデル（LLM）の台頭につながっている。

トランスフォーマーの仕組み

リカレント・ニューラル・ネットワーク（RNN）のような逐次モデルとは異なり、トランスフォーマーはデータのシーケンス全体を一度に処理する。核となるアイデアは、すべての要素を並列処理することで、GPUのような最新のハードウェアでの学習を大幅に高速化する。

このエンベッディングは、各要素（例えば文中の単語）の位置に関する情報をエンベッディングに追加する。そして、自己注意層がこれらの埋め込みを処理することで、各要素がシーケンス内の他のすべての要素を「見て」、どれがその意味を理解するために最も関連性があるかを判断することができる。このグローバルな文脈認識は、複雑なタスクにとって大きな利点となる。PyTorchや TensorFlowのようなフレームワークは、Transformerベースのモデルを構築するための広範なサポートを提供している。

変圧器の用途

トランスフォーマーのインパクトは多くの領域に及び、言語と視覚の両タスクの進歩を促している。

言語翻訳と生成：Google翻訳のようなサービスでは、高品質な機械翻訳のためにTransformerベースのモデルを使用しています。このモデルは、より流暢で正確な翻訳を生成するために、原文全体を考慮することができます。同様に、GPT-4のようなモデルは、一貫性のある段落を作成したり、記事を書いたり、高度なチャットボットに力を与えたりするために、文脈を理解することによって、テキスト生成に優れています。
コンピュータビジョン：ビジョン・トランスフォーマー（ViT）は、画像ベースのタスクにアーキテクチャを適応させる。画像をパッチのシーケンスとして扱い、自己注意を用いてパッチ間の関係をモデル化する。このアプローチは、RT-DETRのような物体検出用のモデルで使用され、シーンのグローバルなコンテキストを理解することで、特に乱雑な環境において、より正確に物体を識別するのに役立ちます。RT-DETRとYOLOv8のアーキテクチャの違いを理解するための比較がご覧いただけます。

トランスフォーマー対他のアーキテクチャ

トランスフォーマーを他の一般的なニューラルネットワークアーキテクチャと区別することは有益である：

トランスフォーマーとRNNの比較：RNNはデータを逐次的に処理するため、本質的に処理速度が遅く、消失勾配問題の影響を受けやすい。トランスフォーマーは並列処理と自己注意力によってこれを克服し、長距離の依存関係をはるかに効果的に捉える。
トランスフォーマーとCNNの比較 畳み込みニューラルネットワーク（CNN）は、ピクセルのようなグリッド状のデータのローカルパターンを識別するために畳み込みフィルタを使用し、視覚タスクに非常に効率的です。CNNはUltralytics YOLOファミリーのようなモデルの基盤となっている。これとは対照的に、トランスフォーマーはグローバルな関係を捉えるが、より多くのデータと計算リソースを必要とすることが多い。ハイブリッド・モデルは、CNNバックボーンとトランスフォーマー・レイヤーを組み合わせたもので、両方の長所を得ることを目的としている。

効率的なトランスのバリエーション

オリジナルのTransformerの完全な自己アテンションの計算コストは、シーケンスの長さに応じて二次関数的に増大するため、非常に長いシーケンスでは困難である。このため、より効率的な変種が開発された。

ロングフォーマー：スライディング・ウィンドウのアテンション・メカニズムを、特定のトークンに対するグローバルなアテンションと組み合わせることで、計算の複雑さを軽減。
リフォーマー：局所性を考慮したハッシュのような技術を採用し、完全な注意を近似させることで、よりメモリ効率を高める。
Transformer-XL：モデルが一定の長さを超える依存関係を学習することを可能にする再帰メカニズムを導入。

このような進歩により、Transformersの新たな問題への適用可能性は拡大し続けている。Hugging Faceや Ultralytics HUBのようなツールやプラットフォームは、開発者がこれらの強力なモデルにアクセスし、展開することを容易にします。

変圧器

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

Ultralytics YOLOでAIモデルを数秒でトレーニング

Ultralytics HUBでYOLOモデルを簡単にトレーニング

トランスフォーマーの仕組み

変圧器の用途

トランスフォーマー対他のアーキテクチャ

効率的なトランスのバリエーション

このカテゴリの続きを読む

OpenAIのGPT-5を探る：スマートな統合システム

グーグルAlphaEarth、全球マッピングに観測データを利用

FastVLM：アップル、新しい高速ビジョン言語モデルを発表

Ultralyticsコミュニティに参加する