用語集

注目のメカニズム

アテンション・メカニズムが、翻訳や物体検出などのNLPやコンピュータ・ビジョンのタスクを強化することで、AIにどのような革命をもたらすかをご覧ください!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

アテンション・メカニズムとは、人工知能(AI)や機械学習(ML)で使用される、人間の認知的アテンションを模倣する技術である。予測や出力の生成の際に、文中の特定の単語や画像中の領域など、入力データの最も関連性の高い部分に選択的に集中することを可能にする。すべての入力部分を等しく扱う代わりに、この選択的な集中は、特に長いテキスト列や高解像度の画像のような大量の情報を扱うときのパフォーマンスを向上させる。これにより、モデルは複雑なタスクをより効果的に処理できるようになり、Transformerアーキテクチャを紹介した代表的な論文「Attention Is All You Need」によって普及した重要な革新技術である。

注意のメカニズム

注意メカニズムは、入力シーケンスや画像全体を一様に処理するのではなく、異なる入力セグ メントに「注意スコア」や重みを割り当てる。これらのスコアは、手元の特定のタスク(例:文中の次の単語を予測する、画像中の物体を分類する) に関する各セグメントの重要性や関連性を示す。スコアが高いセグメン トほど、計算中にモデルから大きなフォーカスを受ける。この動的な割り当てにより、モデルは各ステップで重要な情報に優先順位をつけることができ、より正確で文脈を意識した結果につながる。これは、標準的なリカレント・ニューラル・ネットワーク(RNN)のような古いアーキテクチャとは対照的である。RNNはデータを逐次的に処理するため、勾配が消失するなどの問題により、長いシーケンスの以前の部分の情報を記憶するのに苦労することがある。

関連性と種類

注目メカニズムは、多くの最先端モデルにおける基本的な構成要素となっており、自然言語処理(NLP)やコンピュータビジョン(CV)などの分野に大きな影響を与えている。アテンション・メカニズムは、長距離の依存関係を扱い、データ内の複雑な関係を捉えるという従来のモデルの限界を克服するのに役立っている。主な種類と関連概念は以下の通り:

  • 自己注意:モデルが同じ入力シーケンスの異なる部分の重要性を相対的に判断できるようにする。これはトランスフォーマーの核となるメカニズムである。
  • クロスアテンション:翻訳などのシーケンス間のタスクでよく使用される。
  • エリア・アテンション: Ultralytics YOLO12のようなモデルで見られるように、より大きな領域に注意を集中させ、効率を上げるために設計された変種。これは、物体検出で一般的な、大きな特徴マップに対する標準的な自己注意に関連する計算コストを削減することができる。

BERTや GPTモデルのようなモデルは、NLPタスクのために自己注意に大きく依存しているが、Vision Transformers(ViT)は画像分類のような画像分析タスクのためにこのコンセプトを適応させている。

アテンションとその他のメカニズム

注意メカニズムを他の一般的な神経ネットワークの構成要素と区別することは有益である:

  • 畳み込みニューラルネットワーク(CNN): CNNは通常、画像のようなデータの局所的な空間階層を処理するために、固定サイズのフィルター(カーネル)を使用する。局所的なパターンを捉えるには効果的だが、特殊なアーキテクチャーを用いないと、長距離的な依存関係に苦戦する可能性がある。注意、特に自己注意は、入力全体にわたるグローバルな関係をより直接的に捉えることができる。
  • リカレント・ニューラル・ネットワーク(RNN): RNNは逐次データを段階的に処理し、隠れた状態を維持する。シーケンスのために設計されたものの、標準的なRNNは長い依存関係という課題に直面している。RNNと一緒に、またはTransformerアーキテクチャの一部として使用されることが多いアテンションメカニズムは、モデルが距離に関係なく関連する過去の入力を振り返ることを可能にすることで、この問題に明示的に対処する。最新のフレームワーク PyTorchTensorFlowのような最新のフレームワークは、これらすべてのアーキテクチャの実装をサポートしている。

実世界での応用

注意のメカニズムは、現代の数多くのAIアプリケーションに不可欠である:

Ultralytics HUBのようなプラットフォームでは、ユーザーは、多くの場合、以下のようなプラットフォームで利用可能な事前訓練されたモデルの重みを活用して、注意メカニズムを組み込んだモデルを含む高度なモデルを訓練、検証、展開することができます。 Hugging Face.

すべて読む