用語集

ロングフォーマー

長いシーケンス用に最適化されたトランスフォーマーモデルであるLongformerは、NLP、ゲノミクス、ビデオ解析のためのスケーラブルな効率性を提供します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Longformerは、BERT(Bidirectional Encoder Representations from Transformers)のような以前のモデルに見られる制限を克服し、非常に長いテキストのシーケンスを効率的に処理するために設計された、特殊なTransformerベースのモデルである。Allen Institute for AI (AI2)の研究者によって開発されたLongformerは、標準的なTransformerモデルが直面する、何千ものトークンを処理する際の計算複雑性という課題に対処しており、長い文書を含むタスクに適している。この機能は、広範囲なテキストに渡って文脈を理解する必要がある自然言語処理(NLP)アプリケーションを発展させる上で極めて重要である。

Longformerの仕組み

標準的なTransformerモデルは、すべてのトークンが他のすべてのトークンにアテンションする完全な自己アテンションメカニズムを使用している。強力ではあるが、このメカニズムに必要なメモリと計算量はシーケンスの長さに応じて2次関数的に増加するため、数百トークンより長いシーケンスでは実用的ではない。Longformerは、シーケンスの長さに応じてリニアにスケールする効率的なアテンションパターンを導入している。これは主に以下の組み合わせを使用する:

  • スライディングウィンドウ・アテンション:各トークンは、左右に隣接する一定数のトークンのみに注目し、ローカル・コンテキスト・ウィンドウを作成する。
  • 拡張スライディングウィンドウ:計算量を大幅に増やすことなく受容野を拡大するために、いくつかの窓付き注意レイヤーはギャップ(拡張)を使い、トークンがより遠くにあるトークンに間接的に注意できるようにしている。
  • グローバルな注目: 事前に選択された少数のトークンは、シーケンス全体への参加が許可され、シーケンス全体はそれらに参加することができる。これはしばしば、タスクにとって重要な特定のトークンに対して使われる。 [CLS] 分類タスクのトークン。

この修正されたアテンション・メカニズムにより、Longformerは強力な性能を維持しながら、BERTのようなモデルの典型的な512トークンの制限よりも大幅に長い、数万トークンまでの入力を扱うことができる。この効率性は、多くの実世界の機械学習(ML)タスクに不可欠です。

他のモデルとの主な違い

LongformerとBERTや GPT-2のようなモデルとの主な違いは、効率的に処理できる最大シーケンス長にある。BERTが512トークンに制限されているのに対し、Longformerは桁違いに長いシーケンスを処理することができる。Reformerや Transformer-XLなど、長いシーケンス用に設計された他のモデルは、効率性を達成するために、局所性を考慮したハッシュや再帰メカニズムなど、異なる技術を使用しています。Longformerのアプローチは、そのオリジナルの研究論文で詳述されているが、局所的注意と大域的注意の柔軟な組み合わせを提供し、微調整後の様々な下流タスクに適している。

アプリケーションと使用例

長い文書を処理できるLongformerの能力は、これまで困難であった、あるいは文書を分割するような複雑な回避策が必要であった多くのNLPタスクの可能性を開きます。

  • 文書レベルの質問応答:法律文書、技術マニュアル、長いレポートなど、段落やページにまたがる情報に答えが依存しているような広範囲な文書の中から答えを見つけること。
  • 長い文書の要約:文書全体の文脈を理解することで、論文、研究論文、書籍の章全体の簡潔な要約を生成します。
  • 共参照の解決:長いテキストにわたって同じエンティティを参照する言及を識別する。
  • 科学文献分析:高密度な学術論文から情報を処理・抽出する。以下のようなプラットフォーム Hugging Faceのようなプラットフォームは、Transformers ライブラリを介して、これらの用途のために事前にトレーニングされた Longformer モデルに簡単にアクセスできます。

AI/MLにおける意義

Longformerは、ディープラーニングモデルが長文のテキストを理解し推論できるようにするための重要な前進である。標準的なTransformerの2次的な複雑さのボトルネックを克服することで、大規模言語モデル(LLM)は、文書、書籍、および拡張ダイアログを含むタスクに、より効果的に取り組むことができます。この機能は、深い文脈理解を必要とするアプリケーションに不可欠であり、長大なフォーマットで発見された人間の言語を処理する際にAIが達成できることの限界を押し広げます。Ultralytics YOLO ようなモデルは、物体検出のようなコンピュータービジョンのタスクに優れていますが、Longformerは複雑な長文のテキストデータを処理するための類似の進歩を提供します。Ultralytics HUBのようなツールは、潜在的に特定のNLPタスクのために微調整されたものも含め、様々なAIモデルの展開と管理を合理化します。

すべて読む