用語集

トランスフォーマーXL

Transformer-XLが、セグメントレベルの再帰や長距離コンテキストの処理といった革新的な技術によって、シーケンスモデリングにどのような革命をもたらしたかをご覧ください。

Transformer-XLは、Transformer-Extra Longの略で、オリジナルのTransformerモデルの主な制限の1つである、非常に長いデータ列を処理できないという問題を克服するために設計された、高度なニューラルネットワークアーキテクチャである。グーグルAIとカーネギーメロン大学の研究者によって開発されたTransformer-XLは、モデルが固定長のコンテキストを超える依存関係を学習できるようにする、新しい再帰メカニズムを導入している。これによりTransformer-XLは、書籍や論文のような長いテキストを含むタスクを、従来のものよりもはるかに効果的に処理できるようになり、自然言語処理（NLP）の分野で極めて重要な発展を遂げた。

標準的なTransformerは、データを孤立したセグメントで処理するため、あるセグメントから次のセグメントへの文脈情報をすべて失ってしまう。Transformer-XLは、前のセグメントで計算された隠された状態をキャッシュして再利用し、セグメント間の再帰的な接続を作成することでこれを解決する。これによって、セグメントをまたいで情報が流れるようになり、モデルに記憶の形式を与え、有効なコンテキスト・ウィンドウをより大きくすることができる。

仕組み

Transformer-XLの有効性は、標準的なTransformerに対する2つのコアアーキテクチャの改良に起因する：

セグメントレベルの再帰メカニズム：Transformer-XLは、テキストの各セグメントを個別に処理する代わりに、以前に処理したセグメントの隠れた状態を現在のセグメントのコンテキストとして再利用する。リカレント・ニューラル・ネットワーク（RNN）の仕組みにヒントを得たこの技術は、コンテキストの断片化を防ぎ、より豊かで長期的なデータの理解を可能にする。これは、長文のテキスト生成において一貫性を維持するために非常に重要である。
相対位置埋め込み：オリジナルのTransformerは単語の順序を理解するために絶対位置埋め込みを使用するが、このアプローチはセグメント間で隠された状態を再利用するときに矛盾が生じる。Transformer-XLでは、より洗練された相対位置埋め込みスキームを導入している。トークンの絶対位置をエンコードする代わりに、注目メカニズム内のトークン間の相対距離をエンコードする。これにより、よりロバストになり、より長いシーケンスを処理する際にも一般化できる。

トランスフォーマーXL

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

Ultralytics YOLOでAIモデルを数秒でトレーニング

Ultralytics HUBでYOLOモデルを簡単にトレーニング

仕組み

関連性と応用

関連用語との比較

このカテゴリの続きを読む

OpenAIのGPT-5を探る：スマートな統合システム

グーグルAlphaEarth、全球マッピングに観測データを利用

FastVLM：アップル、新しい高速ビジョン言語モデルを発表

Ultralyticsコミュニティに参加する