用語集

長期短期記憶(LSTM)

長短期記憶(LSTM)ネットワークが、シーケンシャルなデータの処理、RNNの限界の克服、NLPや予測などのAIタスクのパワーアップにいかに優れているかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ロング・ショート・ターム・メモリー(LSTM)ネットワークは、リカレント・ニューラル・ネットワーク(RNN)の特殊なタイプで、シーケンシャルなデータの長距離依存関係を効果的に学習するように設計されている。基本的なRNNは、消失勾配問題のような問題により、長時間のシーケンスに渡って情報を保持するのに苦労するが、LSTMはゲートと呼ばれる内部メカニズムを組み込んで情報の流れを調整することで、長期間に渡って関連する詳細を記憶し、無関係なものを忘れることができる。これにより、LSTMは機械学習(ML)や深層学習(DL)の中でも、シーケンスを含むタスクで特に威力を発揮する。

コアコンセプトゲートとメモリセル

LSTMの重要な革新性は、メモリーセルと3つのプライマリーゲートを含む内部構造にある:

  1. 忘却ゲート:セルの状態からどの情報を捨てるかを決める。
  2. 入力ゲート:どの新しい情報をセル状態に保存するかを決定する。
  3. 出力ゲート:現在の時間ステップの出力を生成するために、セル状態からどの情報を使うかを制御する。

シグモイドや tanhのような関数を用いて実装されたこれらのゲートは、LSTMニューラルネットワーク(NN)が選択的にメモリを更新し、シーケンスの前の部分から重要な文脈を保存しながら後の部分を処理することを可能にする。このメカニズムは、他のニューラルネットワークと同様に、バックプロパゲーションによって学習される。視覚的な説明としては、LSTMに関するChristopher Olah氏のブログ記事が素晴らしい概要を提供している。

AIとMLにおける関連性

LSTMは、時間依存性を捉えることができるため、シーケンシャルなデータを扱う分野で大きな影響力を持っている。LSTMは、多くのタスクにおいて、より単純なRNNよりも大きな進歩を遂げた。自然言語処理(NLP)のような分野では、並列化やアテンションメカニズムによる非常に長いシーケンスの取り扱いが改善されたため、Transformerのような新しいアーキテクチャが主流となっているが、LSTMは依然として重要であり、ハイブリッドアーキテクチャや、状態性が有益な特定のシーケンスモデリング問題に使用されることもある。

関連概念との比較

  • RNN:LSTMは、単純なRNNの短期記憶の限界を克服するために特別に設計されたRNNの一種である。
  • ゲーテッド・リカレント・ユニット(GRU)GRUはゲーテッドRNNのもう一つのタイプで、LSTMに似ているが、より単純な構造(ゲート数が少ない)である。様々なタスクでLSTMに匹敵する性能を達成することが多く、計算コストも低く抑えることができる。
  • トランスフォーマー:シーケンスを段階的に処理するRNN/LSTMとは異なり、Transformersは自己注意メカニズムを使用して、シーケンスの異なる部分の重要性を同時に評価する。これによって並列化が可能になり、BERTや GPTのようなモデルに見られるように、多くのNLPタスクにおいて最先端の結果をもたらしている。

実世界での応用

LSTMは多くの分野で応用され、成功を収めている:

  • 機械翻訳 Google 翻訳の初期バージョンのようなシステムでは、LSTMを使って入力文を順次処理することで、ある言語から別の言語へテキストを翻訳していた。
  • 音声認識話し言葉をテキストに変換する場合、時間の経過とともに文脈を理解することが精度にとって重要であるため、音響モデリングにLSTMや同様のアーキテクチャを利用することが多い。その例として、Amazon AlexaやAppleのSiriのようなバーチャル・アシスタント内のコンポーネントが挙げられる。
  • 時系列分析株式市場予測、気象予測、センサーデータの異常検出など、過去の観測に基づいて将来の値を予測する。
  • テキスト生成チャットボットやコンテンツ作成のようなアプリケーションのために一貫性のあるテキストを作成します。

実装とツール

LSTMは、次のような一般的なディープラーニングフレームワークを使って簡単に実装できる。 PyTorchTensorFlow(TensorFlow LSTMのドキュメントを参照)。Ultralytics 、主に以下のようなコンピュータビジョン(CV)モデルに焦点を当てています。 Ultralytics YOLOのようなコンピュータビジョン(CV)モデルに焦点を当てていますが、シーケンスモデルを理解することは、特に、ビデオ理解や画像キャプションのようなタスクのために、NLPとCVの橋渡しをする研究が進められている中で貴重です。様々なMLモデルや概念については、Ultralytics ドキュメントを参照してください。HochreiterとSchmidhuberによるLSTMの基礎的な論文は、オリジナルの技術的な詳細を提供しています。

すべて読む