翻訳、チャットボット、音声認識のようなAIタスクにパワーを与える、シーケンス・トゥ・シークエンス・モデルがどのように入力を出力シーケンスに変換するかをご覧ください。
Sequence-to-Sequence(Seq2Seq)モデルは、入力配列と出力配列の長さが異なる場合に、入力配列を出力配列に変換するように設計されたディープラーニングアーキテクチャのクラスである。当初はリカレントニューラルネットワーク(RNN)を使用して開発されたこのモデルは、特に自然言語処理(NLP)において、シーケンシャルデータを含む多くのタスクの基礎を形成している。核となる考え方は、文章、オーディオクリップ、時系列データなどのシーケンスを、あるドメインから別のドメインにマッピングすることである。
Seq2Seqモデルは通常、エンコーダーとデコーダーの2つの主要コンポーネントで構成される。
Seq2Seqの性能、特に長いシーケンスに対する性能を大幅に向上させた重要な技術革新は、アテンションメカニズムである。アテンションは、Bahdanauらによって提案されたように、デコーダが各出力要素を生成する際に、入力シーケンスの隠れた状態(最終的な文脈ベクトルだけではない)のさまざまな部分を振り返り、それらの重要度を動的に評価することを可能にする。
Seq2Seqモデルは、特に入力と出力の長さが可変で、アライメントが複雑なタスクにおいて、大きなブレークスルーとなった。このモデルは、多様な配列変換問題を扱うための柔軟なフレームワークを提供した。基礎的なモデルであったものの、RNNベースのオリジナルのSeq2Seqモデルは、長距離依存性の問題に直面していた。このため、注意機構と並列処理に完全に依存するTransformerモデルが開発され、多くのシーケンスタスクで最先端の性能を発揮するために、RNNに大きく取って代わられた。しかし、核となるエンコーダ・デコーダのコンセプトは、依然として影響力を持ち続けている。以下のようなフレームワーク PyTorchや TensorFlowのようなフレームワークは、伝統的なSeq2Seqと最新のTransformerモデルの両方を構築するための堅牢なツールを提供している。
Seq2Seqモデルは、最新のTransformerベースの後継モデルも含め、多くのアプリケーションで使用されている:
Seq2Seqモデルは主にNLPに関連しているが、それに触発された注意メカニズムはコンピュータビジョンでも使用されている。 RT-DETRのような検出モデルやVision Transformersの特定のコンポーネントで使用されている。以下のようなプラットフォームで様々なモデルを調べることができます。 Hugging Face.