Découvre comment les réseaux de mémoire à long terme (LSTM) excellent dans le traitement des données séquentielles, surmontent les limites des RNN et alimentent les tâches d'IA telles que la PNL et les prévisions.
La mémoire à long terme (LSTM) est un type spécialisé d'architecture de réseau neuronal récurrent (RNN) conçu pour surmonter les limites des RNN traditionnels dans l'apprentissage des dépendances à long terme. Présentées par Sepp Hochreiter et Jürgen Schmidhuber en 1997, les LSTM sont particulièrement efficaces pour traiter les séquences de données, telles que le texte, la parole et les séries temporelles, où le contexte des parties antérieures de la séquence est crucial pour comprendre les parties ultérieures. Cette capacité en fait une technologie de base dans diverses applications d'apprentissage profond (Deep Learning, DL).
Les LSTM ont été appliquées avec succès dans de nombreux domaines nécessitant la modélisation de séquences :
Bien que puissantes, les LSTM font partie d'une famille plus large de modèles de séquences :
Les LSTM peuvent être facilement mises en œuvre à l'aide de cadres d'apprentissage profond populaires tels que. PyTorch (voir la documentationPyTorch LSTM) et TensorFlow (voir la documentation sur les LSTM deTensorFlow ). Alors qu'Ultralytics se concentre principalement sur les modèles de vision par ordinateur (VA) tels que Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances, il est utile de comprendre les modèles de séquences, en particulier dans la mesure où la recherche explore le rapprochement entre NLP et CV pour des tâches telles que la compréhension de vidéos ou le sous-titrage d'images. Tu peux explorer plus avant les différents modèles et concepts de ML dans la documentation d'Ultralytics . La gestion de la formation et du déploiement de divers modèles peut être rationalisée à l'aide de plateformes comme Ultralytics HUB. L'article fondateur LSTM de Hochreiter et Schmidhuber fournit les détails techniques originaux. Des ressources telles que DeepLearning.AI proposent des cours couvrant les modèles de séquence, y compris les LSTM.
Comment fonctionnent les LSTM
Les RNN traditionnels sont confrontés au problème du gradient de disparition, où les informations des premières étapes d'une séquence s'estompent au fur et à mesure qu'elles se propagent dans le réseau, ce qui rend difficile l'apprentissage des dépendances sur de longs intervalles. Les LSTM résolvent ce problème en utilisant une structure unique comprenant des cellules de mémoire et des portes.
Le composant central est la cellule de mémoire, qui agit comme un tapis roulant, permettant à l'information de circuler dans le réseau de façon relativement inchangée. Les LSTM utilisent trois "portes" principales pour réguler les informations stockées dans la cellule de mémoire :
Ces portes, mises en œuvre à l'aide de fonctions d'activation telles que sigmoïde et tanh, apprennent quelles informations sont importantes à conserver ou à écarter à chaque pas de temps, ce qui permet au réseau de conserver un contexte pertinent sur des séquences prolongées.