Glossaire

Mémoire à long terme (LSTM)

Découvre comment les réseaux de mémoire à long terme (LSTM) excellent dans le traitement des données séquentielles, surmontent les limites des RNN et alimentent les tâches d'IA telles que la PNL et les prévisions.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La mémoire à long terme (LSTM) est un type spécialisé d'architecture de réseau neuronal récurrent (RNN) conçu pour surmonter les limites des RNN traditionnels dans l'apprentissage des dépendances à long terme. Présentées par Sepp Hochreiter et Jürgen Schmidhuber en 1997, les LSTM sont particulièrement efficaces pour traiter les séquences de données, telles que le texte, la parole et les séries temporelles, où le contexte des parties antérieures de la séquence est crucial pour comprendre les parties ultérieures. Cette capacité en fait une technologie de base dans diverses applications d'apprentissage profond (Deep Learning, DL).

Comment fonctionnent les LSTM

Les RNN traditionnels sont confrontés au problème du gradient de disparition, où les informations des premières étapes d'une séquence s'estompent au fur et à mesure qu'elles se propagent dans le réseau, ce qui rend difficile l'apprentissage des dépendances sur de longs intervalles. Les LSTM résolvent ce problème en utilisant une structure unique comprenant des cellules de mémoire et des portes.

Le composant central est la cellule de mémoire, qui agit comme un tapis roulant, permettant à l'information de circuler dans le réseau de façon relativement inchangée. Les LSTM utilisent trois "portes" principales pour réguler les informations stockées dans la cellule de mémoire :

  1. Porte d'oubli : Décide des informations à jeter de l'état de la cellule.
  2. Porte d'entrée : Décide quelles nouvelles informations doivent être stockées dans l'état de la cellule.
  3. Porte de sortie : Décide de la partie de l'état de la cellule à sortir.

Ces portes, mises en œuvre à l'aide de fonctions d'activation telles que sigmoïde et tanh, apprennent quelles informations sont importantes à conserver ou à écarter à chaque pas de temps, ce qui permet au réseau de conserver un contexte pertinent sur des séquences prolongées.

Applications dans le monde réel

Les LSTM ont été appliquées avec succès dans de nombreux domaines nécessitant la modélisation de séquences :

  • Traitement du langage naturel (NLP) : Les LSTM excellent dans des tâches telles que la traduction automatique (par exemple, traduire de longues phrases tout en préservant le sens), l'analyse des sentiments (comprendre les opinions exprimées dans un texte) et la modélisation du langage. Par exemple, une LSTM peut traiter un paragraphe de texte pour en comprendre le sentiment général, en se souvenant des phrases clés du début qui influencent le sens à la fin.
  • Reconnaissance de la parole: Elles sont utilisées pour convertir le langage parlé en texte en modélisant les dépendances temporelles des signaux audio. Un système basé sur les LSTM peut reconnaître des mots et des phrases en tenant compte de la séquence des sons dans le temps, ce qui améliore la précision par rapport aux modèles qui ne tiennent pas compte du contexte à long terme. Les systèmes de reconnaissance vocale deGoogle ont toujours utilisé des LSTM.
  • Analyse des séries temporelles: Les LSTM sont appliquées pour prévoir les valeurs futures en se basant sur des données historiques, telles que les cours de la bourse, les modèles météorologiques ou la consommation d'énergie. Leur capacité à se souvenir des tendances à long terme les rend aptes à la modélisation prédictive complexe.
  • Analyse vidéo : Les LSTM peuvent traiter des séquences d'images vidéo pour comprendre les actions ou les événements qui se produisent au fil du temps, contribuant ainsi à des applications telles que la reconnaissance d'activités.

LSTMs et architectures apparentées

Bien que puissantes, les LSTM font partie d'une famille plus large de modèles de séquences :

  • RNN: Les LSTM sont un type de RNN spécialement conçu pour éviter les problèmes de mémoire à court terme des RNN simples.
  • Unités récurrentes à portes (GRU): Les GRU sont une variante des LSTM avec une architecture plus simple (moins de portes). Leurs performances sont souvent comparables à celles des LSTM pour certaines tâches, tout en étant moins gourmandes en ressources informatiques.
  • Transformateurs: Introduits plus tard, les transformateurs s'appuient sur des mécanismes d'attention plutôt que sur la récurrence. Ils ont largement dépassé les LSTM en termes de performances pour de nombreuses tâches NLP, en particulier dans les grands modèles de langage (LLM) tels que GPT-4. Des architectures telles que Longformer étendent les capacités des transformateurs à de très longues séquences.

Mise en oeuvre et outils

Les LSTM peuvent être facilement mises en œuvre à l'aide de cadres d'apprentissage profond populaires tels que. PyTorch (voir la documentationPyTorch LSTM) et TensorFlow (voir la documentation sur les LSTM deTensorFlow ). Alors qu'Ultralytics se concentre principalement sur les modèles de vision par ordinateur (VA) tels que Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances, il est utile de comprendre les modèles de séquences, en particulier dans la mesure où la recherche explore le rapprochement entre NLP et CV pour des tâches telles que la compréhension de vidéos ou le sous-titrage d'images. Tu peux explorer plus avant les différents modèles et concepts de ML dans la documentation d'Ultralytics . La gestion de la formation et du déploiement de divers modèles peut être rationalisée à l'aide de plateformes comme Ultralytics HUB. L'article fondateur LSTM de Hochreiter et Schmidhuber fournit les détails techniques originaux. Des ressources telles que DeepLearning.AI proposent des cours couvrant les modèles de séquence, y compris les LSTM.

Tout lire