用語集

ロングフォーマー

長いシーケンス用に最適化されたトランスフォーマーモデルであるLongformerは、NLP、ゲノミクス、ビデオ解析のためのスケーラブルな効率性を提供します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Longformerは、従来の変換器よりも非常に長いデータ列を効率的に処理するように設計された、変換器モデルアーキテクチャの一種である。この機能強化は、シーケンス長に比例して2次関数的に増加する計算制約のために、長い入力に苦戦する標準的なトランスフォーマーモデルの主要な制限に対処するものである。

ロングフォーマーを理解する

従来の変換モデルは、強力ではあるが、テキスト、オーディオ、ビデオの長いシーケンスを処理する際に課題に直面する。その注意メカニズムの計算量は、入力シーケンスの長さに応じて二次関数的に増大するため、長い文書や高解像度の入力には実用的ではない。Longformerは、シーケンス長に対して線形にスケールする注意メカニズムを導入することで、この問題に取り組んでいる。この技術革新により、このモデルは数千から数万のトークンの入力を扱うことができるようになり、様々なAIタスクにおけるより長いコンテキストの処理に新たな可能性を開くことができる。

Longformerの効率性の鍵は、異なるタイプの注意を組み合わせるハイブリッド・アテンション・メカニズムにある:

  • スライディング・ウインドウの注意:各トークンはその周りの一定数のトークンに注意を向け、ローカルコンテキストを作成する。これは計算効率がよく、局所的な依存関係を効果的にとらえる。
  • グローバル・アテンション:特定の事前定義されたトークンは他のすべてのトークンに注意し、すべてのトークンはこ れらのグローバルなトークンに注意する。これにより、モデルはグローバルな表現を学習し、長いシーケンス全体にわたって全体的なコンテクストを維持することができる。
  • 拡張スライディングウィンドウ注意:スライディングウィンドウ注意に似ているが、ウィンドウにギャップ(拡張)があるため、同じような計算コストでより大きな有効受容野が得られる。

これらの注意メカニズムを戦略的に組み合わせることで、Longformerは、長時間の入力を理解するために重要な長距離依存関係をモデル化する能力を保持しながら、計算負荷を大幅に軽減する。このため、Longformerは、文書、記事、会話を扱う自然言語処理(NLP)タスクや、高解像度の画像や動画を扱うコンピュータビジョンタスクにおいて特に有用である。

ロングフォーマーの用途

Longformerは長いシーケンスを扱うことができるため、コンテキストの長さが重要なさまざまな用途に適している:

  • ドキュメントの要約首尾一貫した要約を生成するために文書全体を理解する必要があるタスクでは、Longformerは全テキストの入力を処理することで優れています。例えば、長い報告書からの文脈が不可欠な法律や医療画像解析において、Longformerは限られた文脈ウィンドウを持つモデルと比べて、より包括的で正確な要約を提供することができます。
  • 長い文書に対する質問応答Longformerは、膨大な文書から情報を取り出す必要のある質問応答システムにおいて非常に効果的である。例えば、法律AIアプリケーションにおいて、Longformerは長大な判例文書や法令に基づく特定の法律問題に回答するために使用することができ、一度にテキストの断片しか処理できないモデルよりも大きな利点を提供します。
  • ゲノムデータの処理テキストだけでなく、Longformerのアーキテクチャはゲノム配列を含む他のシーケンシャルデータにも適応可能です。バイオインフォマティクスでは、長いDNAやRNAの配列を解析することは、生物学的プロセスや病気を理解する上で極めて重要です。Longformerは、このような長い配列を処理し、より短いコンテキスト機能を持つモデルでは見逃される可能性のあるパターンや関係を特定することができます。
  • 長時間のビデオ解析:動画を含むコンピュータビジョンのタスク、特に長時間に渡る事象を理解する必要があるタスクにおいて、Longformerは長いフレームシーケンスの処理に適用できます。これは、監視や長時間の外科手術の分析など、時間的文脈が重要な用途に有効です。

ロングフォーマーとトランスフォーマー

LongformerはオリジナルのTransformerアーキテクチャを進化させたもので、長いシーケンスを扱う際の標準的なTransformerの計算上の制限を克服するために特別に設計されている。従来のトランスフォーマーは、2次関数的に複雑な完全な自己注意を利用していたが、Longformerは、線形的な複雑さを達成するために、疎な注意パターンを導入している。これにより、Longformerは、長距離の依存関係を含むタスクに対して、よりスケーラブルで効率的な選択肢となる一方で、文脈上の関係を捉えるという変換器アーキテクチャの核となる強みを維持することができる。入力シーケンスが短いタスクでは、標準的なトランスフォーマーで十分かもしれませんが、広範なコンテキストの処理を必要とするアプリケーションでは、Longformerは大きな利点を提供します。YOLO-NASや、のエコシステムなど、他のモデルアーキテクチャーを検討することもできる。 RT-DETRUltralytics などのモデル・アーキテクチャを調べることができる。これらは効率的で正確な物体検出タスクのために設計されており、AIにおけるモデル・アーキテクチャの多様性を示している。

すべて読む