Glossaire

Mémoire à long terme (LSTM)

Découvre comment les réseaux de mémoire à long terme (LSTM) excellent dans le traitement des données séquentielles, surmontent les limites des RNN et alimentent les tâches d'IA telles que la PNL et les prévisions.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les réseaux à mémoire à long terme (LSTM) sont un type spécialisé de réseau neuronal récurrent (RNN) conçu pour apprendre efficacement les dépendances à long terme dans les données séquentielles. Contrairement aux RNN de base, qui peinent à retenir les informations sur des séquences prolongées en raison de problèmes tels que celui du gradient de disparition, les LSTM intègrent des mécanismes internes appelés portes pour réguler le flux d'informations, ce qui leur permet de se souvenir des détails pertinents et d'oublier ceux qui ne le sont pas sur de longues périodes. Cela les rend particulièrement puissantes pour les tâches relevant de l'apprentissage automatique (ML) et de l'apprentissage profond (DL) qui impliquent des séquences.

Concept de base : Portes et cellules de mémoire

La principale innovation des LSTM réside dans leur structure interne, qui comprend une cellule de mémoire et trois portes primaires :

  1. Forget Gate : Décide quelles informations doivent être jetées de l'état de la cellule.
  2. Porte d'entrée : Détermine quelles nouvelles informations doivent être stockées dans l'état de la cellule.
  3. Porte de sortie : Contrôle quelles informations de l'état de la cellule sont utilisées pour générer la sortie pour le pas de temps actuel.

Ces portes, mises en œuvre à l'aide de fonctions telles que sigmoïde et tanh, permettent au réseau neuronal LSTM (NN) de mettre à jour sa mémoire de manière sélective, en préservant le contexte important des parties antérieures d'une séquence tout en traitant les parties ultérieures. Ce mécanisme est entraîné par rétropropagation, comme les autres réseaux neuronaux. Pour une explication visuelle, l'article du blog de Christopher Olah sur les LSTM offre une excellente vue d'ensemble.

Pertinence dans l'IA et la ML

Les LSTM ont eu une grande influence dans les domaines traitant de données séquentielles en raison de leur capacité à capturer les dépendances temporelles. Elles ont représenté une avancée significative par rapport aux RNN plus simples pour de nombreuses tâches. Alors que des architectures plus récentes comme les transformateurs sont devenues dominantes dans des domaines tels que le traitement du langage naturel (NLP) en raison d'une meilleure parallélisation et de la gestion de très longues séquences via des mécanismes d'attention, les LSTM restent pertinentes et sont parfois utilisées dans des architectures hybrides ou pour des problèmes spécifiques de modélisation de séquences où leur caractère d'état est bénéfique.

Comparaison avec des concepts apparentés

  • RNN : Les LSTM sont un type de RNN spécialement conçu pour surmonter les limites de la mémoire à court terme des RNN simples.
  • Unités récurrentes à portes (GRU): Les GRU sont un autre type de RNN à portes, similaires aux LSTM mais avec une structure plus simple (moins de portes). Elles atteignent souvent des performances comparables à celles des LSTM pour diverses tâches et peuvent être moins coûteuses sur le plan informatique.
  • Transformateurs : Contrairement aux RNN/LSTM qui traitent les séquences étape par étape, les transformateurs utilisent des mécanismes d'auto-attention pour évaluer l'importance des différentes parties de la séquence simultanément. Cela permet une plus grande parallélisation et a conduit à des résultats de pointe dans de nombreuses tâches NLP, comme le montrent des modèles tels que BERT et GPT.

Applications dans le monde réel

Les LSTM ont été appliquées avec succès dans de nombreux domaines :

  • Traduction automatique: Les systèmes tels que les premières versions de Google Translate utilisaient des LSTM pour traduire un texte d'une langue à l'autre en traitant les phrases d'entrée de manière séquentielle.
  • Reconnaissance de la parole: La conversion du langage parlé en texte, où la compréhension du contexte dans le temps est cruciale pour la précision, utilise souvent des LSTM ou des architectures similaires dans la modélisation acoustique. Les exemples incluent les composants des assistants virtuels comme Amazon Alexa ou Apple's Siri.
  • Analyse des séries temporelles: Prédire des valeurs futures sur la base d'observations passées, comme les prévisions boursières, les prévisions météorologiques ou la détection d'anomalies dans les données des capteurs.
  • Génération de texte: Créer un texte cohérent pour des applications telles que les chatbots ou la création de contenu.

Mise en oeuvre et outils

Les LSTM peuvent être facilement mises en œuvre à l'aide de cadres d'apprentissage profond populaires tels que. PyTorch (voir la documentationPyTorch LSTM) et TensorFlow (voir la documentation sur les LSTM deTensorFlow ). Alors qu'Ultralytics se concentre principalement sur les modèles de vision par ordinateur (VA) tels que Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances, il est utile de comprendre les modèles de séquences, en particulier dans la mesure où la recherche explore le rapprochement entre NLP et CV pour des tâches telles que la compréhension de vidéos ou le sous-titrage d'images. Tu peux explorer les différents modèles et concepts de ML dans la documentation d'Ultralytics . L'article fondateur LSTM de Hochreiter et Schmidhuber fournit les détails techniques originaux.

Tout lire