用語集

セルフ・アテンションズ

NLP、コンピュータビジョン、音声認識に革命をもたらし、コンテキストを意識した精度を実現する、AIにおける自己注意力のパワーをご覧ください。

自己アテンションは、モデルが1つの入力シーケンスの中で異なる要素の重要性を評価することを可能にするメカニズムである。入力のすべての部分を同等に扱うのではなく、特定の要素を処理するときに、モデルが最も関連性の高い部分に選択的に焦点を当てることを可能にする。この機能は、データ内のコンテキスト、長期的な依存関係、関係性を理解する上で極めて重要であり、多くの最新の人工知能（AI）アーキテクチャ、特にトランスフォーマーの基盤を形成している。この機能は、自然言語処理（NLP）の分野に革命をもたらした論文「Attention Is All You Need」で紹介されたことで有名である。

セルフ・アテンションの仕組み

その核心は、現在処理されている要素に対して、入力シーケンスの他のすべての要素に「アテンションスコア」を割り当てることによって、自己アテンションが動作することである。これは、各入力要素に対してクエリー（Q）、キー（K）、バリュー（V）の3つのベクトルを作成することで達成される。

クエリー：コンテクストを「探している」現在の要素を表す。
キー：クエリが関連情報を見つけるために比較できる、シーケンス内のすべての要素を表す。
値：アテンションスコアに基づいて集計される各要素の実際の内容を表す。

与えられたQueryに対して、メカニズムがシーケンス内のすべてのKeyとの類似度を計算する。これらの類似度スコアは重み（多くの場合ソフトマックス関数を使用）に変換され、各要素のValueにどれだけのフォーカスを当てるべきかが決定される。Queryの最終的な出力は、すべてのValueの重み付き合計であり、シーケンス全体からのコンテキストで強化された要素の新しい表現を作成します。このプロセスは、大規模言語モデル（LLM）がどのように動作するかの重要な部分である。このQ-K-Vプロセスの優れた視覚的説明は、Jay Alammar氏のブログなどで見ることができる。

自己注意と注意のメカニズム

自己注意は注意メカニズムの特定のタイプである。重要な違いは、クエリ、キー、およびバリュー・ベクトルのソースである。

自己アテンション：3つのベクトル（Q、K、V）はすべて同じ入力シーケンスから導出される。これにより、モデルは1つの文章や画像内の内部関係を分析することができる。
一般的な注意（またはクロスアテンション）：クエリーベクトルはあるシーケンスから、キーとバリューベクトルは別のシーケンスから来るかもしれない。これは、機械翻訳のようなシーケンス間のタスクでは一般的であり、デコーダ（翻訳されたテキストを生成する）は、ソーステキストのエンコーダの表現に注意を払う。

AIとコンピュータ・ビジョンへの応用

テキストの要約や翻訳のようなタスクのためにNLPで最初に普及したが、自己注意はコンピュータビジョン（CV）でも非常に効果的であることが証明されている。

自然言語処理：ロボットがレンチを拾ったのは、レンチが重かったからだ」というような文章では、自己注意によって、モデルは "それ "を "ロボット "ではなく "レンチ "と正しく関連付けることができる。この理解は、BERTや GPT-4のようなモデルの基本である。
コンピュータビジョン ヴィジョン・トランスフォーマー（ViT）モデルは、画像のパッチに自己注意を適用し、画像分類のようなタスクのために、視覚シーンの異なる部分間の関係を学習することを可能にする。物体検出モデルの中には、特徴マップを改良して精度を向上させるために、注意ベースのモジュールを組み込んだものもある。YOLO12のようにアテンションを使用するモデルもありますが、ほとんどのユースケースでは、堅牢で効率的なUltralytics YOLO11をお勧めします。

今後の方向性

研究は、より高い計算効率（例えば、FlashAttentionやスパースアテンションバリアントのような手法）とより広い適用性を目指して、自己注意メカニズムを改良し続けている。AIモデルが複雑化するにつれて、自己注意は、ロボット工学のような特殊なAIアプリケーションから人工一般知能（AGI）の追求に至る分野での進歩を推進する、基幹技術であり続けると予想されます。Ultralytics HUBのようなツールやプラットフォームは、これらの高度な技術を組み込んだモデルのトレーニングやデプロイを容易にし、多くの場合、Hugging Faceのようなリポジトリを介して利用可能で、PyTorchや TensorFlowのようなフレームワークで開発されています。

セルフ・アテンションズ

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

Ultralytics YOLOでAIモデルを数秒でトレーニング

Ultralytics HUBでYOLOモデルを簡単にトレーニング

セルフ・アテンションの仕組み

自己注意と注意のメカニズム

AIとコンピュータ・ビジョンへの応用

今後の方向性

このカテゴリの続きを読む

OpenAIのGPT-5を探る：スマートな統合システム

グーグルAlphaEarth、全球マッピングに観測データを利用

FastVLM：アップル、新しい高速ビジョン言語モデルを発表

Ultralyticsコミュニティに参加する