用語集

セルフ・アテンションズ

NLP、コンピュータビジョン、音声認識に革命をもたらし、コンテキストを意識した精度を実現する、AIにおける自己注意力のパワーをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

自己注意は、現代の人工知能において重要なメカニズムであり、モデルが入力データを処理する際に、入力データのさまざまな部分の重要性を量ることを可能にする。別々の入力シーケンスと出力シーケンスの間の関係に注目する従来の注意メカニズムとは異なり、自己注意は入力シーケンス自体の中の関係に注目する。この能力は、自然言語処理などの分野に革命をもたらし、コンピュータ・ビジョンにおいてもますます大きな影響を及ぼしている。

自己注意を理解する

その核心は、モデルが出力を生成する際に、入力のさまざまな部分に注意を払うことを可能にする自己注意である。文章を読むことを想像してみてほしい。そうではなく、文中の他の単語の文脈の中でそれぞれの単語を理解するのだ。自己アテンションは、AIモデルがこの文脈理解を模倣することを可能にする。これは、入力の各部分について、他のすべての部分との相対的な「注意スコア」を計算することで実現される。これらのスコアは、モデルが入力を処理する際に各パートをどの程度重視すべきかを決定し、最も関連性の高い情報に集中できるようにする。これは、理解するために文脈が重要な逐次データを扱う場合に特に有用である。

セルフ・アテンションの応用

自己アテンションは、さまざまなAIアプリケーションで広く使われている:

  • 自然言語処理(NLP):NLPにおいて、自己アテンションは、テキスト生成、機械翻訳、感情分析などの最先端のアプリケーションを支えるTransformersのようなモデルの基本である。例えば、テキスト生成では、自己アテンションは、モデルがすでに生成した単語の文脈を理解し、次の単語をより正確に予測するのに役立ちます。GPT-3や GPT-4のようなモデルは、首尾一貫した文脈に関連したテキストを生成するために自己注意を活用します。
  • コンピュータビジョン自己注意は、特に画像分類や 物体検出のために設計されたモデルにおいて、ますますコンピュータビジョンのタスクに統合されつつある。画像の異なる部分(パッチのような)をシーケンスとして扱うことで、自己注意はモデルがこれらの部分間の関係を理解することを可能にする。例えば、物体検出では、自己注意は、シーン全体の中での文脈を考慮することによって、モデルが物体を認識するのを助けることができ、より正確な検出と誤検出の減少につながります。Ultralytics YOLO モデルは、Ultralytics YOLO : Advancements in State-of-the-Art Vision AIブログで議論されている進歩に見られるように、すでに効率的で正確な物体検出能力を強化するために、注意メカニズムの統合を探求し、継続的に進化しています。
  • 音声認識: 音声認識システムには、音声シーケンスを処理するための自己注意メカニズムも使用されている。音声入力の様々な部分に注意を向けることで、これらのモデルは、特にノイズの多い環境や様々なアクセントのある環境において、話し言葉をより適切に書き取ることができる。

自己注意と従来の注意メカニズムとの比較

従来の注意のメカニズムでは、あるシーケンス(English の入力文のようなもの)から別のシーケンス(フランス語の翻訳のようなもの)に注意を向けることが多い。これとは対照的に、自己注意は1つのシーケンス内で動作する。この違いが、データ自体の文脈や内部関係を理解する上で力を発揮する鍵となる。さらに、リカレント・ニューラル・ネットワーク(RNN)のような以前のシーケンス処理手法とは異なり、自己アテンション・メカニズムは入力のすべての部分を並行して処理することができるため、計算が大幅に高速化し、長いシーケンスをよりうまく処理できるようになる。この効率性が、NLPや視覚タスクにおけるTransformerモデルの成功の主な理由である。

セルフ・アテンションの未来

自己アテンションの開発は、AIにおいて現在進行中の革新分野である。研究者たちは、効率性、有効性、新しい領域への適用性を向上させるために、これらのメカニズムを絶えず改良している。AIモデルがより洗練されるにつれて、自己注意は、複雑なデータを理解し処理することを可能にし、人工知能(AGI)のような分野の進歩を促進する上で、より大きな役割を果たすことが期待されている。Ultralytics HUBのようなプラットフォームは、自己注意を組み込んだ高度なモデルを探索、訓練、展開するためのツールとリソースを提供し、これらの強力な技術を開発者や研究者がより利用しやすくします。

すべて読む