NLP、コンピュータビジョン、音声認識に革命をもたらし、コンテキストを意識した精度を実現する、AIにおける自己注意力のパワーをご覧ください。
自己アテンションは、モデルが1つの入力シーケンスの中で異なる要素の重要性を評価することを可能にするメカニズムである。入力のすべての部分を同等に扱うのではなく、特定の要素を処理するときに、モデルが最も関連性の高い部分に選択的に焦点を当てることを可能にする。この機能は、データ内のコンテキスト、長期的な依存関係、関係性を理解する上で極めて重要であり、多くの最新の人工知能(AI)アーキテクチャ、特にトランスフォーマーの基盤を形成している。この機能は、自然言語処理(NLP)の分野に革命をもたらした論文「Attention Is All You Need」で紹介されたことで有名である。
その核心は、現在処理されている要素に対して、入力シーケンスの他のすべての要素に「アテンションスコア」を割り当てることによって、自己アテンションが動作することである。これは、各入力要素に対してクエリー(Q)、キー(K)、バリュー(V)の3つのベクトルを作成することで達成される。
与えられたQueryに対して、メカニズムがシーケンス内のすべてのKeyとの類似度を計算する。これらの類似度スコアは重み(多くの場合ソフトマックス関数を使用)に変換され、各要素のValueにどれだけのフォーカスを当てるべきかが決定される。Queryの最終的な出力は、すべてのValueの重み付き合計であり、シーケンス全体からのコンテキストで強化された要素の新しい表現を作成します。このプロセスは、大規模言語モデル(LLM)がどのように動作するかの重要な部分である。このQ-K-Vプロセスの優れた視覚的説明は、Jay Alammar氏のブログなどで見ることができる。
自己注意は注意メカニズムの特定のタイプである。重要な違いは、クエリ、キー、およびバリュー・ベクトルのソースである。
テキストの要約や翻訳のようなタスクのためにNLPで最初に普及したが、自己注意はコンピュータビジョン(CV)でも非常に効果的であることが証明されている。
研究は、より高い計算効率(例えば、FlashAttentionやスパースアテンションバリアントのような手法)とより広い適用性を目指して、自己注意メカニズムを改良し続けている。AIモデルが複雑化するにつれて、自己注意は、ロボット工学のような特殊なAIアプリケーションから人工一般知能(AGI)の追求に至る分野での進歩を推進する、基幹技術であり続けると予想されます。Ultralytics HUBのようなツールやプラットフォームは、これらの高度な技術を組み込んだモデルのトレーニングや デプロイを容易にし、多くの場合、Hugging Faceのようなリポジトリを介して利用可能で、PyTorchや TensorFlowのようなフレームワークで開発されています。