用語集

ロングフォーマー

長いシーケンス用に最適化されたトランスフォーマーモデルであるLongformerは、NLP、ゲノミクス、ビデオ解析のためのスケーラブルな効率性を提供します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Longformerは、非常に長いテキストシーケンスを効率的に処理するために特別に設計されたTransformerモデルの一種である。アレンAI研究所(AI2)によって開発されたこのTransformerは、BERTや GPTのような標準的なTransformerモデルの主要な制限に対処している。このため、標準的なTransformerは、文書全体や書籍、長い会話の処理など、何千ものトークンを含むタスクには実用的ではない。Longformerは、このような長いシーケンスを扱うために最適化されたアテンションメカニズムを利用し、Transformerのパワーをより幅広い自然言語処理(NLP)タスクに適用することを可能にしている。

Longformerの仕組み

ロングフォーマーの革新の核心は、効率的な自己アテンション・パターンにある。標準的なトランスフォーマーは、すべてのトークンがシーケンスの他のすべてのトークンにアテンションする「完全な」自己アテンションメカニズムを使用している。強力ではあるが、これは2次的な複雑さのボトルネックとなる。Longformerは、これを注意パターンの組み合わせで置き換えます:

  1. スライディング・ウインドウの注意:各トークンは、そのトークンの周囲にある一定サイズのウィンドウにのみ注意を払う。これは局所的な文脈を効果的にとらえ、シーケンスの長さに応じて線形にスケールする。
  2. 拡張されたスライディング・ウィンドウの注意:計算を追加することなく受容野を拡大するために、ウィンドウを「拡張」することができる。つまり、視野内のトークンをいくつかスキップして、一定数のみに注意を向けながら、より遠くのトークンからの情報を捕捉できるようにする。
  3. グローバルな注目: 事前に選択された特定のトークン(例えば、以下のような特別なトークン)。 [CLS] 分類タスクに使用される)は、シーケンス全体にアテンションすることができ、シーケンス全体はそれらにアテンションすることができる。これにより、タスク固有の情報をグローバルに統合することができる。

この組み合わせにより、Longformerは標準的なTransformerと同様に、ローカル情報とグローバル情報の両方を取り入れた文脈表現を構築することができる。これにより、BERTのようなモデルの典型的な512または1024トークンの制限と比較して、数万トークンのシーケンスを処理することが可能になる。実装は、Hugging Face Transformersのようなライブラリで容易に利用できる。

主な特徴と利点

  • 効率:シーケンスの長さに応じて計算量とメモリがリニアにスケーリングされるため、非常に長い文書の処理が可能になる。
  • 拡張性:主にハードウェアメモリによって制限される長さ(例えば、標準 BERT の 512 トークンに対し、4096 トークン以上)までのシーケンスを扱うことができる。
  • パフォーマンス様々な自然言語処理タスクで高いパフォーマンスを維持し、長距離の依存関係が重要な場合、短いコンテキストに限定されたモデルを上回ることが多い。
  • 柔軟性:多くのディープラーニング・アーキテクチャにおいて、標準的なTransformer層の置き換えとして使用できる。
  • 事前学習と微調整他のTransformerモデルと同様に、大規模なテキストコーパスで事前学習し、特定の下流タスク用に微調整することができる。

実世界での応用

長いシーケンスを扱うLongformerの能力は、様々な領域で能力を発揮する:

  • ドキュメントの要約重要な情報がテキスト全体にまたがっているような、長い記事、研究論文、レポートの要約。標準的なモデルでは、切り捨てによって文脈を見逃す可能性があります。
  • 長い文書の質問に対する回答:法的な契約書、技術マニュアル、書籍のような長い文書に含まれる情報に基づいて質問に答える。例えば、法務AIはLongformerを使って100ページの契約書から関連する条項を探し出すことができる。
  • 科学文献の分析:情報抽出やナレッジグラフ構築のようなタスクのために、長文の科学論文内の複雑な関係や知見を処理し、理解する。
  • 対話システム: チャットボットや バーチャルアシスタントの長い会話履歴を分析することで、長時間の対話においてより良い文脈と一貫性を維持する。

AI/MLにおける意義

Longformerは、ディープラーニングモデルが長文のテキストを理解し推論できるようにするための重要な前進である。標準的なTransformerの2次的な複雑さのボトルネックを克服することで、大規模言語モデル(LLM)は、文書、書籍、および拡張ダイアログを含むタスクに、より効果的に取り組むことができます。この機能は、深い文脈理解を必要とするアプリケーションに不可欠であり、人工知能(AI)が長文形式の人間の言語を処理する際に達成できることの限界を押し広げます。

のようなモデルがある一方で Ultralytics YOLO11のようなモデルは、物体検出や 画像セグメンテーションのようなコンピュータビジョン(CV)タスクに秀でているが、Longformerは、NLP領域における複雑で長文のテキストデータを扱うための類似の進歩を提供する。Ultralytics HUBのようなツールは、様々なAIモデルのデプロイと管理を効率化し、LongformerのようなNLPモデルを含む可能性がある。 PyTorchまたは TensorFlow.

関連用語との比較

  • 標準的なトランスフォーマー:Longformerは標準的なTransformerアーキテクチャを改良したものである。主な違いは、標準的なTransformerが長い入力に対して計算コストの高い完全な自己注意を使用するのに対し、Longformerは長いシーケンス用に設計された効率的な注意メカニズム(スライディングウィンドウ+グローバル注意)を備えていることである。
  • Reformer:もう1つの効率的なTransformerの亜種であるReformerは、メモリと計算コストを削減するために、局所性を考慮したハッシュ(LSH)アテンションや可逆的な残差レイヤーのような技術を使用する。どちらも長いシーケンスを対象としているが、効率を達成するために異なる技術的アプローチを用いている。
  • Transformer-XL: Transformer-XLは、標準的なTransformerよりも長い文脈を扱うために、再帰と相対位置埋め込みを導入している。Longformerは、特定の注意パターンを使って、1つの長いシーケンス内の双方向コンテキストにより重点を置く。
すべて読む