用語集

配列間モデル

翻訳、チャットボット、音声認識のようなAIタスクにパワーを与える、シーケンス・トゥ・シークエンス・モデルがどのように入力を出力シーケンスに変換するかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Sequence-to-Sequence(Seq2Seq)モデルは、入力配列と出力配列の長さが異なる場合に、入力配列を出力配列に変換するように設計されたディープラーニングアーキテクチャのクラスである。当初はリカレントニューラルネットワーク(RNN)を使用して開発されたこのモデルは、特に自然言語処理(NLP)において、シーケンシャルデータを含む多くのタスクの基礎を形成している。核となる考え方は、文章、オーディオクリップ、時系列データなどのシーケンスを、あるドメインから別のドメインにマッピングすることである。

配列間モデルの仕組み

Seq2Seqモデルは通常、エンコーダーとデコーダーの2つの主要コンポーネントで構成される。

  1. エンコーダー:この部分は入力シーケンス全体(例えばフランス語の文章)を段階的に処理する。各ステップで、内部の隠れた状態を更新する。最終的な隠れ状態は、しばしば「文脈ベクトル」や「思考ベクトル」と呼ばれ、入力シーケンスの要約や本質を捉えることを目的としている。初期のSeq2Seqモデルは、Sequence to Sequence Learningの論文で詳しく述べられているように、この目的のためにRNNやLSTMを使用していた。
  2. デコーダ:このコンポーネントは、エンコーダから最終的なコンテキストベクトルを受け取り、出力シーケンスを段階的に生成する(例えば、English翻訳文)。文脈ベクトルを初期状態として使用し、各時間ステップで出力シーケンスの1つの要素を生成し、その都度自身の隠れ状態を更新する。

Seq2Seqの性能、特に長いシーケンスに対する性能を大幅に向上させた重要な技術革新は、アテンションメカニズムである。アテンションは、Bahdanauらによって提案されたように、デコーダが各出力要素を生成する際に、入力シーケンスの隠れた状態(最終的な文脈ベクトルだけではない)のさまざまな部分を振り返り、それらの重要度を動的に評価することを可能にする。

関連性と進化

Seq2Seqモデルは、特に入力と出力の長さが可変で、アライメントが複雑なタスクにおいて、大きなブレークスルーとなった。このモデルは、多様な配列変換問題を扱うための柔軟なフレームワークを提供した。基礎的なモデルであったものの、RNNベースのオリジナルのSeq2Seqモデルは、長距離依存性の問題に直面していた。このため、注意機構と並列処理に完全に依存するTransformerモデルが開発され、多くのシーケンスタスクで最先端の性能を発揮するために、RNNに大きく取って代わられた。しかし、核となるエンコーダ・デコーダのコンセプトは、依然として影響力を持ち続けている。以下のようなフレームワーク PyTorchTensorFlowのようなフレームワークは、伝統的なSeq2Seqと最新のTransformerモデルの両方を構築するための堅牢なツールを提供している。

AIとMLの応用

Seq2Seqモデルは、最新のTransformerベースの後継モデルも含め、多くのアプリケーションで使用されている:

  • 機械翻訳ソース言語からターゲット言語へのテキスト翻訳(例:Google 翻訳のようなサービス)。
  • テキストの要約長い記事や文書から短い要約を生成する。
  • チャットボットと質問応答:入力されたテキストや質問に基づいて、会話の応答や答えを生成すること。最近のチャットボットの多くは、GPT-4のような高度なTransformerアーキテクチャを活用しています。
  • 音声認識音声特徴のシーケンスをテキストのシーケンスに変換する(転写)。
  • 画像キャプション:入力画像のテキスト説明(単語のシーケンス)を生成する。のようなモデルが行う物体検出タスクとは異なる。 Ultralytics YOLOのようなモデルで実行される物体検出タスクとは異なりますが、視覚入力をシーケンシャルな出力にマッピングすることが含まれます。スタンフォードNLPグループのような機関では、このような分野の研究がよく行われている。

Seq2Seqモデルは主にNLPに関連しているが、それに触発された注意メカニズムはコンピュータビジョンでも使用されている。 RT-DETRのような検出モデルやVision Transformersの特定のコンポーネントで使用されている。以下のようなプラットフォームで様々なモデルを調べることができます。 Hugging Face.

すべて読む