NLP、コンピュータビジョン、音声認識に革命をもたらし、コンテキストを意識した精度を実現する、AIにおける自己注意力のパワーをご覧ください。
自己注意は、現代の人工知能において極めて重要なメカニズムであり、特に影響力のある論文「Attention Is All You Need」で紹介されたトランスフォーマー・アーキテクチャにおいて顕著である。これによってモデルは、情報を処理する際に1つの入力シーケンスのさまざまな部分の重要性を量ることができ、データ自体の文脈や関係性をより深く理解することができる。これは、異なる入力シーケンスと出力シーケンスの関連性に主眼を置いていた以前のアテンション手法とは対照的である。その影響は自然言語処理に大きな変革をもたらし、コンピュータビジョン(CV)においてもますます重要性を増している。
セルフ・アテンションの核となる考え方は、文脈を考慮しながら情報の特定の部分に集中する人間の能力を模倣することである。例えば、文章を読むとき、単語の意味はしばしばそれを囲む単語に依存する。自己注意は、AIモデルが入力シーケンス内のすべての要素(単語や画像パッチなど)間の関係を評価することを可能にする。これは、シーケンス内の他のすべての要素に対する各要素の相対的な「注意スコア」を計算する。これらのスコアは、特定の要素に対する出力表現を生成する際に、各要素がどの程度の「注意」または「重み」を受けるべきかを決定し、モデルが文脈と長期的な依存関係を理解するために、入力の最も関連性の高い部分に集中できるようにします。このプロセスでは、各入力要素に対してクエリ表現、キー表現、および値表現を作成する。
自己アテンションは、旧来のシーケンス処理技術に比べていくつかの利点がある:
どちらも注意メカニズムの傘に入るが、自己注意は従来の注意とは大きく異なる。従来の注意は通常、2つの異なるシーケンスの要素間の注意スコアを計算する。例えば、機械翻訳中に原文の単語と目的文の単語を関連付けるような場合である。しかし、自己注意は、入力の要素を同じ入力の他の要素に関連づけながら、1つのシーケンス内の注意スコアを計算する。この内部的な焦点は、入力の構造と文脈を深く理解する必要があるタスクにおいて、その有効性の鍵となる。
自己注意は、さまざまな領域にわたる多くの最先端モデルにとって基本的なものである:
研究は、より高い計算効率(例えば、FlashAttentionやスパースアテンションバリアントのような方法)とより広い適用性を目指して、自己注意メカニズムを改良し続けている。AIモデルが複雑化するにつれて、自己注意は、専門的なAIアプリケーションから人工知能(AGI)の追求に至る分野での進歩を推進する基礎技術であり続けると予想されます。Ultralytics HUBのようなツールやプラットフォームは、このような高度な技術を組み込んだモデルのトレーニングや 展開を容易にします。