Glossar

Langes Kurzzeitgedächtnis (LSTM)

Entdecke, wie Long Short-Term Memory (LSTM)-Netzwerke sequenzielle Daten verarbeiten, die Grenzen von RNN überwinden und KI-Aufgaben wie NLP und Vorhersagen unterstützen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Long Short-Term Memory (LSTM)-Netzwerke sind eine spezielle Art von rekurrenten neuronalen Netzwerken (RNN), die entwickelt wurden, um langfristige Abhängigkeiten in sequentiellen Daten effektiv zu lernen. Im Gegensatz zu einfachen RNNs, die aufgrund von Problemen wie dem Problem des verschwindenden Gradienten Schwierigkeiten haben, Informationen über längere Sequenzen zu behalten, verfügen LSTMs über interne Mechanismen, die Gates genannt werden, um den Informationsfluss zu regulieren. Das macht sie besonders leistungsfähig für Aufgaben des Maschinellen Lernens (ML) und des Deep Learning (DL), die Sequenzen beinhalten.

Kernkonzept: Gatter und Speicherzellen

Die wichtigste Innovation der LSTMs liegt in ihrer internen Struktur, die aus einer Speicherzelle und drei primären Gates besteht:

  1. Forget Gate: Entscheidet, welche Informationen aus dem Zellstatus weggeworfen werden sollen.
  2. Input Gate: Legt fest, welche neuen Informationen im Zustand der Zelle gespeichert werden sollen.
  3. Output Gate: Legt fest, welche Informationen aus dem Zellzustand verwendet werden, um die Ausgabe für den aktuellen Zeitschritt zu erzeugen.

Diese Gatter, die mit Funktionen wie Sigmoid und tanh implementiert werden, ermöglichen es dem neuronalen Netz (NN ), seinen Speicher selektiv zu aktualisieren und so wichtigen Kontext aus früheren Teilen einer Sequenz zu erhalten, während spätere Teile verarbeitet werden. Dieser Mechanismus wird, ähnlich wie bei anderen neuronalen Netzen, durch Backpropagation trainiert. Für eine anschauliche Erklärung bietet Christopher Olahs Blogbeitrag über LSTMs einen hervorragenden Überblick.

Relevanz in KI und ML

LSTMs haben aufgrund ihrer Fähigkeit, zeitliche Abhängigkeiten zu erfassen, großen Einfluss auf Bereiche, die mit sequenziellen Daten arbeiten. Sie stellten für viele Aufgaben einen erheblichen Fortschritt gegenüber einfacheren RNNs dar. Während neuere Architekturen wie Transformers in Bereichen wie der natürlichen Sprachverarbeitung (NLP) aufgrund der besseren Parallelisierung und der Handhabung sehr langer Sequenzen durch Aufmerksamkeitsmechanismen dominieren, bleiben LSTMs weiterhin relevant und werden manchmal in hybriden Architekturen oder für spezielle Sequenzmodellierungsprobleme eingesetzt, bei denen ihre Zustandsfähigkeit von Vorteil ist.

Vergleich mit verwandten Konzepten

  • RNNs: LSTMs sind eine Art von RNNs, die speziell dafür entwickelt wurden, die Einschränkungen des Kurzzeitgedächtnisses einfacher RNNs zu überwinden.
  • Gated Recurrent Units (GRUs): GRUs sind eine weitere Art von Gated RNN, ähnlich wie LSTMs, aber mit einer einfacheren Struktur (weniger Gatter). Sie erreichen bei verschiedenen Aufgaben oft eine vergleichbare Leistung wie LSTMs und können rechnerisch weniger aufwändig sein.
  • Transformatoren: Im Gegensatz zu RNNs/LSTMs, die Sequenzen schrittweise verarbeiten, nutzen Transformers Selbstbeobachtungsmechanismen, um die Bedeutung verschiedener Teile der Sequenz gleichzeitig zu gewichten. Dies ermöglicht eine stärkere Parallelisierung und hat bei vielen NLP-Aufgaben zu Spitzenergebnissen geführt, wie man an Modellen wie BERT und GPT sehen kann.

Anwendungen in der realen Welt

LSTMs wurden bereits in zahlreichen Bereichen erfolgreich eingesetzt:

  • Maschinelle Übersetzung: Systeme wie frühe Versionen von Google Translate nutzten LSTMs, um Texte von einer Sprache in eine andere zu übersetzen, indem sie Eingabesätze nacheinander verarbeiteten.
  • Spracherkennung: Bei der Umwandlung von gesprochener Sprache in Text, bei der das Verständnis des Kontexts über die Zeit entscheidend für die Genauigkeit ist, werden häufig LSTMs oder ähnliche Architekturen zur akustischen Modellierung eingesetzt. Beispiele dafür sind Komponenten in virtuellen Assistenten wie Amazon Alexa oder Apples Siri.
  • Zeitreihenanalyse: Die Vorhersage zukünftiger Werte auf der Grundlage vergangener Beobachtungen, z. B. Börsenprognosen, Wettervorhersagen oder die Erkennung von Anomalien in Sensordaten.
  • Texterstellung: Erstellen von zusammenhängendem Text für Anwendungen wie Chatbots oder die Erstellung von Inhalten.

Umsetzung und Tools

LSTMs lassen sich leicht mit gängigen Deep-Learning-Frameworks implementieren, z. B. PyTorch (siehe PyTorch LSTM-Dokumentation) und TensorFlow (siehe TensorFlow LSTM-Dokumentation). Während Ultralytics sich hauptsächlich auf Computer Vision (CV) Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzensegmentierung konzentriert, ist das Verständnis von Sequenzmodellen wertvoll, insbesondere da die Forschung eine Brücke zwischen NLP und CV für Aufgaben wie Videoverstehen oder Bilduntertitelung schlägt. In der Ultralytics kannst du verschiedene ML-Modelle und -Konzepte näher kennenlernen. Das grundlegende LSTM-Papier von Hochreiter und Schmidhuber enthält die ursprünglichen technischen Details.

Alles lesen