Glossar

Langes Kurzzeitgedächtnis (LSTM)

Entdecke, wie Long Short-Term Memory (LSTM)-Netzwerke sequenzielle Daten verarbeiten, die Grenzen von RNN überwinden und KI-Aufgaben wie NLP und Vorhersagen unterstützen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Das Langzeitgedächtnis (Long Short-Term Memory, LSTM) ist eine spezielle Art von rekurrenten neuronalen Netzen (RNN), die entwickelt wurden, um die Einschränkungen traditioneller RNNs beim Erlernen langfristiger Abhängigkeiten zu überwinden. LSTMs wurden 1997 von Sepp Hochreiter und Jürgen Schmidhuber entwickelt und sind besonders effektiv bei der Verarbeitung von Datenfolgen wie Text, Sprache und Zeitreihen, bei denen der Kontext früherer Teile der Folge entscheidend für das Verständnis späterer Teile ist. Diese Fähigkeit macht sie zu einem Eckpfeiler in verschiedenen Deep Learning (DL) Anwendungen.

Wie LSTMs funktionieren

Herkömmliche RNNs haben mit dem Problem des verschwindenden Gradienten zu kämpfen, bei dem die Informationen aus den ersten Schritten einer Sequenz verblassen, während sie sich im Netzwerk ausbreiten, was es schwierig macht, Abhängigkeiten über lange Zeiträume zu lernen. LSTMs lösen dieses Problem mit einer einzigartigen Struktur aus Speicherzellen und Gattern.

Die Kernkomponente ist die Speicherzelle, die wie ein Förderband funktioniert und es ermöglicht, dass Informationen relativ unverändert durch das Netzwerk fließen. LSTMs verwenden drei Haupt-"Gates", um die in der Speicherzelle gespeicherten Informationen zu regulieren:

  1. Forget Gate: Entscheidet, welche Informationen aus dem Zustand der Zelle weggeworfen werden sollen.
  2. Input Gate: Entscheidet, welche neuen Informationen im Zustand der Zelle gespeichert werden sollen.
  3. Ausgangsgatter: Entscheidet, welcher Teil des Zellzustands ausgegeben werden soll.

Diese Gates, die mit Aktivierungsfunktionen wie Sigmoid und Tanh implementiert werden, lernen bei jedem Zeitschritt, welche Informationen wichtig sind, um sie zu behalten oder zu verwerfen, so dass das Netzwerk den relevanten Kontext über längere Sequenzen beibehalten kann.

Anwendungen in der realen Welt

LSTMs wurden bereits erfolgreich in zahlreichen Bereichen eingesetzt, in denen eine Sequenzmodellierung erforderlich ist:

  • Verarbeitung natürlicher Sprache (NLP): LSTMs eignen sich hervorragend für Aufgaben wie maschinelle Übersetzung (z. B. das Übersetzen langer Sätze unter Beibehaltung der Bedeutung), Stimmungsanalyse (das Verstehen von in Texten ausgedrückten Meinungen) und Sprachmodellierung. Ein LSTM kann z. B. einen Textabsatz verarbeiten, um die allgemeine Stimmung zu verstehen, und sich dabei an wichtige Sätze vom Anfang erinnern, die die Bedeutung am Ende beeinflussen.
  • Spracherkennung: Sie werden verwendet, um gesprochene Sprache in Text umzuwandeln, indem die zeitlichen Abhängigkeiten in Audiosignalen modelliert werden. Ein LSTM-basiertes System kann Wörter und Sätze erkennen, indem es die zeitliche Abfolge der Geräusche berücksichtigt und so die Genauigkeit im Vergleich zu Modellen verbessert, die den langfristigen Kontext nicht erfassen. Die Spracherkennungssysteme vonGoogle haben in der Vergangenheit LSTMs verwendet.
  • Zeitreihenanalyse: LSTMs werden eingesetzt, um zukünftige Werte auf der Grundlage historischer Daten wie Aktienkurse, Wettermuster oder Energieverbrauch vorherzusagen. Durch ihre Fähigkeit, sich langfristige Trends zu merken, eignen sie sich für komplexe Vorhersagemodelle.
  • Videoanalyse: LSTMs können Sequenzen von Videobildern verarbeiten, um Handlungen oder Ereignisse zu verstehen, die im Laufe der Zeit stattfinden, und tragen so zu Anwendungen wie der Aktivitätserkennung bei.

LSTMs vs. verwandte Architekturen

LSTMs sind zwar leistungsstark, gehören aber zu einer breiteren Familie von Sequenzmodellen:

  • RNNs: LSTMs sind eine Art von RNNs, die speziell entwickelt wurden, um die Probleme des Kurzzeitgedächtnisses einfacher RNNs zu vermeiden.
  • Gated Recurrent Units (GRUs): GRUs sind eine Variante der LSTMs mit einer einfacheren Architektur (weniger Gatter). Sie erbringen bei bestimmten Aufgaben oft vergleichbare Leistungen wie LSTMs, sind aber weniger rechenintensiv.
  • Transformers: Die später eingeführten Transformers basieren auf Aufmerksamkeitsmechanismen und nicht auf Rekursion. Sie haben die LSTMs bei vielen NLP-Aufgaben weit hinter sich gelassen, insbesondere bei Large Language Models (LLMs) wie GPT-4. Architekturen wie Longformer erweitern die Fähigkeiten von Transformers für sehr lange Sequenzen.

Umsetzung und Tools

LSTMs lassen sich leicht mit gängigen Deep-Learning-Frameworks implementieren, z. B. PyTorch (siehe PyTorch LSTM-Dokumentation) und TensorFlow (siehe TensorFlow LSTM-Dokumentation). Während Ultralytics sich hauptsächlich auf Computer Vision (CV) Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzensegmentierung konzentriert, ist das Verständnis von Sequenzmodellen wertvoll, insbesondere da die Forschung eine Brücke zwischen NLP und CV für Aufgaben wie Videoverstehen oder Bilduntertitelung schlägt. In der Ultralytics kannst du die verschiedenen ML-Modelle und Konzepte näher kennenlernen. Die Verwaltung des Trainings und des Einsatzes verschiedener Modelle kann mit Plattformen wie Ultralytics HUB vereinfacht werden. Das grundlegende LSTM Paper von Hochreiter und Schmidhuber enthält die technischen Details. Ressourcen wie DeepLearning.AI bieten Kurse zu Sequenzmodellen, einschließlich LSTMs.

Alles lesen