用語集

ロングフォーマー

長いシーケンス用に最適化されたトランスフォーマーモデルであるLongformerは、NLP、ゲノミクス、ビデオ解析のためのスケーラブルな効率性を提供します。

Longformerは、非常に長い文書を効率的に処理するために設計された先進的なTransformerベースのモデルである。アレンAI研究所の研究者によって開発されたこのモデルの主な革新点は、BERTのような標準的なTransformerモデルの2次関数的スケーリングとは異なり、シーケンスの長さに応じて線形にスケーリングするアテンションメカニズムである。この効率性により、数千から数万のトークンを含むテキストに対して複雑な自然言語処理(NLP)タスクを実行することが可能になる。

Longformerの仕組み

Longformerの効率の核心は、標準的なTransformerの完全な自己注意メカニズムに代わる、独自の注意パターンにある。すべてのトークンが他のトークンに注目するのではなく、Longformerは2種類の注目を組み合わせている:

  • スライディング・ウィンドウ(ローカル)・アテンション:ほとんどのトークンは、左右に隣接する一定数のトークンのみに注意を払う。これは局所的な文脈をとらえるもので、人間の読者が単語を理解するときに、そのすぐ周囲にある単語に基づいて理解するのと似ている。このアプローチは、畳み込みニューラルネットワーク(CNN)が局所的パターンを活用することに成功したことにヒントを得ている。
  • グローバルな注目: 事前に選択された少数のトークンはグローバルな注意を持つように指定される。これらの「グローバル」トークンは、文書全体から高レベルの情報を収集する役割を果たす。タスク固有の 微調整このようなグローバル・トークンは、戦略的に選ばれることが多い。 [CLS] 分類タスクのためのトークン。

この組み合わせにより、計算効率と、複雑な文書を理解するために必要な長距離の依存関係を捉えることのバランスが取れる。オリジナル研究の詳細は論文"Longformer:The Long-Document Transformer" に詳しい。

AIと機械学習における応用

Longformerは長いシーケンスを扱うことができるため、以前は実用的でなかった多くの用途に可能性が広がります。

  • 長い文書の分析:書籍全体、長文の研究論文、複雑な法律文書に対して、テキストの要約や 質問応答などのタスクを実行することができる。例えば、リーガルテック企業は、Longformerベースのモデルを使って、何千ページもの証拠開示文書を自動的にスキャンし、関連する証拠を見つけることができる。
  • 対話システムとチャットボット チャットボットやバーチャルアシスタントのコンテキストでは、Longformerはより長い会話履歴を保持することができ、より首尾一貫した、コンテキストを意識したインタラクションを長期間にわたって行うことができる。
  • ゲノミクスとバイオインフォマティクス:そのアーキテクチャは、長いDNA配列やタンパク質配列の解析に適しており、研究者が膨大な遺伝子データセットの中からパターンや機能を特定するのに役立つ。研究ラボでは、染色体全体の中から特定の遺伝子配列を見つけるために応用できるだろう。

訓練済みのLongformerモデルは、Hugging Faceのようなプラットフォームで広く利用可能であり、開発者は様々なタスクに適応させることができる。

関連用語との比較

ロングフォーマーは、標準的なトランスフォーマーの長時間のシーケンスの限界を克服するために設計されたいくつかのモデルの一つです。

  • 標準的な変圧器:重要な違いはアテンション・メカニズムである。Longformerの効率的な注意パターンは長いシーケンスのために設計されているが、標準的なTransformerの完全な自己注意は長い入力にはメモリと計算量が多すぎる。
  • Reformerもうひとつの効率的なTransformerであるReformerは、リソースの使用量を減らすために、LSH(locality-sensitive hashing)アテンションや可逆レイヤーのような技術を使用する。どちらも長いシーケンスを対象としているが、効率を達成するために異なる技術戦略を採用している。
  • Transformer-XLこのモデルは、より長いコンテキストを管理するために再帰と相対位置埋め込みを導入しており、テキスト生成のような自動回帰タスクに特に効果的である。これとは対照的に、Longformerは双方向のコンテキストを持つ1つの長い文書を1回で処理するように設計されている。

これらのNLPモデルは、物体検出のようなタスクを得意とするUltralytics YOLOのようなコンピュータビジョン(CV)モデルとは異なるが、計算効率の追求は共通のテーマである。Longformerのような複雑さを軽減するイノベーションは、強力なディープラーニングモデルを リアルタイム推論や多様なハードウェア上でのモデル展開に実用化するために極めて重要です。このような高度なモデルの管理は、Ultralytics HUBのようなプラットフォームを使って合理化することができます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク