Découvre comment les réseaux de mémoire à long terme (LSTM) excellent dans le traitement des données séquentielles, surmontent les limites des RNN et alimentent les tâches d'IA telles que la PNL et les prévisions.
Les réseaux à mémoire à long terme (LSTM) sont un type spécialisé de réseau neuronal récurrent (RNN) conçu pour apprendre efficacement les dépendances à long terme dans les données séquentielles. Contrairement aux RNN de base, qui peinent à retenir les informations sur des séquences prolongées en raison de problèmes tels que celui du gradient de disparition, les LSTM intègrent des mécanismes internes appelés portes pour réguler le flux d'informations, ce qui leur permet de se souvenir des détails pertinents et d'oublier ceux qui ne le sont pas sur de longues périodes. Cela les rend particulièrement puissantes pour les tâches relevant de l'apprentissage automatique (ML) et de l'apprentissage profond (DL) qui impliquent des séquences.
La principale innovation des LSTM réside dans leur structure interne, qui comprend une cellule de mémoire et trois portes primaires :
Ces portes, mises en œuvre à l'aide de fonctions telles que sigmoïde et tanh, permettent au réseau neuronal LSTM (NN) de mettre à jour sa mémoire de manière sélective, en préservant le contexte important des parties antérieures d'une séquence tout en traitant les parties ultérieures. Ce mécanisme est entraîné par rétropropagation, comme les autres réseaux neuronaux. Pour une explication visuelle, l'article du blog de Christopher Olah sur les LSTM offre une excellente vue d'ensemble.
Les LSTM ont eu une grande influence dans les domaines traitant de données séquentielles en raison de leur capacité à capturer les dépendances temporelles. Elles ont représenté une avancée significative par rapport aux RNN plus simples pour de nombreuses tâches. Alors que des architectures plus récentes comme les transformateurs sont devenues dominantes dans des domaines tels que le traitement du langage naturel (NLP) en raison d'une meilleure parallélisation et de la gestion de très longues séquences via des mécanismes d'attention, les LSTM restent pertinentes et sont parfois utilisées dans des architectures hybrides ou pour des problèmes spécifiques de modélisation de séquences où leur caractère d'état est bénéfique.
Les LSTM ont été appliquées avec succès dans de nombreux domaines :
Les LSTM peuvent être facilement mises en œuvre à l'aide de cadres d'apprentissage profond populaires tels que. PyTorch (voir la documentationPyTorch LSTM) et TensorFlow (voir la documentation sur les LSTM deTensorFlow ). Alors qu'Ultralytics se concentre principalement sur les modèles de vision par ordinateur (VA) tels que Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances, il est utile de comprendre les modèles de séquences, en particulier dans la mesure où la recherche explore le rapprochement entre NLP et CV pour des tâches telles que la compréhension de vidéos ou le sous-titrage d'images. Tu peux explorer les différents modèles et concepts de ML dans la documentation d'Ultralytics . L'article fondateur LSTM de Hochreiter et Schmidhuber fournit les détails techniques originaux.