用語集

リフォーマー

リフォーマーモデルをご覧ください:LSHアテンションとリバーシブルレイヤーを備えたロングシーケンス用に最適化された画期的なトランスフォーマーアーキテクチャ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Reformerは、標準的なTransformerアーキテクチャの効率的な変形であり、従来のTransformerにとって計算量とメモリが大きな課題となる非常に長いシーケンスを処理するために特別に設計されている。Google 研究者たちによって導入されたReformerは、メモリ使用量と計算コストを劇的に削減するためのいくつかの革新的な技術を取り入れ、標準的なTransformerの限界をはるかに超える、数十万から数百万の要素を持つシーケンスを処理することを可能にしている。この効率性により、書籍全体の処理、ピクセルのシーケンスとして扱われる高解像度画像、長い音楽曲など、広範な文脈を含むタスクにTransformerのようなモデルを適用する可能性が開かれる。

リフォーマーのコアコンセプト

リフォーマーは、主に2つの重要な技術によってその効率を達成している:

  1. Locality-Sensitive Hashing(LSH)アテンション:標準的なトランスフォーマーは完全な自己アテンションメカニズムを使用し、すべての要素(トークン)が他のすべての要素にアテンションする。この計算コストはシーケンスの長さに応じて二次関数的に増大する。Reformerはこれを、Locality-Sensitive Hashingに基づく近似技術であるLSHアテンションで置き換えます。LSHは類似したトークンをグループ化し、アテンションはそのグループ内、もしくはその近傍のグループ内でのみ計算されるため、計算量は二次関数的なものから線形に近いものへと大幅に削減される。
  2. 可逆的な残差層:トランスフォーマーは複数のレイヤーを積み重ねるが、トレーニング中、バックプロパゲーションのために各レイヤーからのアクティブ度をメモリに保存するのが一般的である。このため、特にレイヤー数が多い場合やアクティブ値が大きい場合、かなりのメモリを消費する。Reformerはリバーシブルレイヤーを採用しており、バックプロパゲーション時に、どのレイヤーの活性化も次のレイヤーの活性化のみを使用して再計算することができます。これにより、ほとんどのレイヤーのアクティブ度を保存する必要がなくなり、トレーニング中のメモリ使用量を大幅に削減することができます。

リフォーマー対標準変圧器

どちらもアテンション・メカニズムに基づいているが、リフォーマーは大きく異なる:

  • アテンション:標準的なトランスフォーマーは、計算コストのかかる完全な注意を使用する。Reformerは効率的なLSHベースの近似アテンションを使用。
  • メモリー標準的なトランスフォーマーは、アクティベーションを保存するために大容量のメモリを必要とする。Reformerは可逆レイヤーを使用することで、モデル学習時に必要なメモリを最小限に抑えます。
  • シーケンスの長さ:標準的なトランスフォーマーは通常、数千トークンのシーケンスに制限されている。Reformerは数桁長いシーケンスを扱うことができる。
  • 使用例:標準的なトランスフォーマーは、中程度の長さのシーケンスを持つタスクに優れています。Reformerは、標準的なTransformerでは実現不可能な、非常に長いシーケンスを含むタスクに最適化されています。Hugging Faceようなプラットフォームで、様々なTransformerベースのモデルを試すことができます。

アプリケーション

リフォーマーは長いシーケンスを処理できるため、人工知能(AI)のさまざまなタスクに適している:

  • 長い文書の処理:本全体の要約、長い法律文書や技術文書に基づく質問への回答、長いテキストに対する感情分析の実行などのタスクが、より扱いやすくなる。
  • ゲノミクス:長いDNAやタンパク質の配列を解析する。
  • 時系列分析:詳細な金融市場の動向や長期的な気候パターンなど、非常に長い時系列データをモデル化する。
  • ジェネレーティブ・モデリング:ピクセルを長いシーケンスとして扱うことで、テキスト、音楽、あるいは高解像度の画像の長いまとまりを生成する(Text-to-Imagegeneration)。

のようなモデルがある一方で Ultralytics YOLOのようなモデルは、画像内の効率的な物体検出に重点を置いており、多くの場合、畳み込みニューラルネットワーク(CNN)または RT-DETRReformerで探求されている計算効率とメモリー効率の原理は、ディープラーニング(DL)分野全体に関連しています。このような進歩を理解することは、より高性能で利用しやすいAIモデルに向けてイノベーションを推進するのに役立ち、この目標は、AIの開発と展開を簡素化することを目的とするUltralytics HUBのようなプラットフォームと共通しています。詳細については、オリジナルのReformer研究論文を参照してください。YOLO11 YOLOv10のようにモデルの効率を比較することで、パフォーマンスとリソース使用のバランスを取るための継続的な努力が浮き彫りになります。

すべて読む