Glossar

Langes Kurzzeitgedächtnis (LSTM)

Entdecken Sie, wie Long Short-Term Memory (LSTM)-Netzwerke sequenzielle Daten verarbeiten, die Grenzen von RNN überwinden und KI-Aufgaben wie NLP und Prognosen unterstützen.

Das Langzeitgedächtnis (Long Short-Term Memory, LSTM) ist ein spezieller Typ von rekurrenten neuronalen Netzen (RNN), die für das Lernen und Erinnern von Mustern über lange Datensequenzen entwickelt wurden. Im Gegensatz zu Standard-RNNs, die aufgrund des Problems des verschwindenden Gradienten mit langfristigen Abhängigkeiten zu kämpfen haben, verwenden LSTMs einen einzigartigen Gating-Mechanismus zur Regulierung des Informationsflusses. Dadurch kann das Netzwerk selektiv wichtige Informationen über längere Zeiträume hinweg behalten, während irrelevante Daten verworfen werden, was es zu einem Eckpfeiler des modernen Deep Learning macht, insbesondere bei der Verarbeitung natürlicher Sprache (NLP). Das grundlegende LSTM-Papier von Hochreiter und Schmidhuber legte den Grundstein für diese leistungsstarke Technologie.

Wie LSTMs funktionieren

Der Schlüssel zu den Fähigkeiten eines LSTM ist seine interne Struktur, die einen "Zellzustand" und mehrere "Gates" umfasst. Der Zellstatus fungiert als Förderband, das relevante Informationen durch die Sequenz transportiert. Die Gates - Input, Forget und Output - sind neuronale Netze, die steuern, welche Informationen dem Zellzustand hinzugefügt, aus ihm entfernt oder aus ihm gelesen werden.

  • Vergessen-Gate: Entscheidet, welche Informationen aus dem vorherigen Zellzustand verworfen werden sollen.
  • Eingabe-Gate: Legt fest, welche neuen Informationen von der aktuellen Eingabe im Zellstatus gespeichert werden sollen.
  • Ausgabe-Gate: Steuert, welche Informationen aus dem Zellzustand verwendet werden, um die Ausgabe für den aktuellen Zeitschritt zu erzeugen.

Diese Gating-Struktur ermöglicht es LSTMs, den Kontext über viele Zeitschritte hinweg beizubehalten, was für das Verständnis sequenzieller Daten wie Text oder Zeitreihen von entscheidender Bedeutung ist. Eine detaillierte Visualisierung finden Sie in diesem beliebten Blogbeitrag Understanding LSTMs.

Anwendungen in der realen Welt

LSTMs wurden in zahlreichen Bereichen mit sequentiellen Daten erfolgreich eingesetzt.

  1. Maschinelle Übersetzung: LSTMs können einen Satz in einer Sprache Wort für Wort verarbeiten, eine interne Darstellung (Verständnis) aufbauen und dann eine Übersetzung in eine andere Sprache erstellen. Dazu müssen sie sich den Kontext vom Anfang des Satzes merken, um eine kohärente Übersetzung zu erstellen. Google Translate hat in der Vergangenheit LSTM-basierte Modelle für diesen Zweck verwendet, bevor es zu Transformer-Architekturen überging.
  2. Erkennung von Sprache: In Sprache-zu-Text-Anwendungen können LSTMs Sequenzen von Audiomerkmalen verarbeiten, um gesprochene Wörter zu transkribieren. Das Modell muss frühere Töne berücksichtigen, um den aktuellen richtig zu interpretieren, was seine Fähigkeit unter Beweis stellt, zeitliche Abhängigkeiten zu verarbeiten. Viele moderne virtuelle Assistenten beruhen auf dieser Technologie.

Vergleich mit anderen Sequenzmodellen

LSTMs gehören zu einer breiteren Familie von Modellen für sequentielle Daten.

  • Gated Recurrent Unit (GRU): Eine GRU ist eine vereinfachte Version eines LSTM. Sie kombiniert die Vergessens- und Eingabegatter zu einem einzigen "Aktualisierungsgatter" und führt den Zellzustand und den verborgenen Zustand zusammen. Dadurch sind GRUs rechnerisch effizienter und schneller zu trainieren, auch wenn sie bei einigen Aufgaben etwas weniger aussagekräftig sind als LSTMs.
  • Versteckte Markov-Modelle (HMMs): HMMs sind probabilistische Modelle, die weniger komplex sind als LSTMs. Sie sind zwar für einfachere Sequenzaufgaben nützlich, können aber nicht die komplexen, weitreichenden Abhängigkeiten erfassen, die LSTMs und andere neuronale Netze können.
  • Transformator: Die Transformer-Architektur, die auf einem Selbstbeobachtungsmechanismus beruht, hat die LSTMs als Stand der Technik für viele NLP-Aufgaben weitgehend überholt. Im Gegensatz zur sequentiellen Verarbeitung von LSTMs können Transformers alle Elemente einer Sequenz parallel verarbeiten, was sie auf moderner Hardware wie GPUs sehr effizient macht und globale Abhängigkeiten besser erfasst.

Umsetzung und Tools

LSTMs lassen sich leicht mit gängigen Deep-Learning-Frameworks wie PyTorch (siehe PyTorch LSTM-Dokumentation) und TensorFlow (siehe TensorFlow LSTM-Dokumentation) implementieren. Ultralytics konzentriert sich zwar in erster Linie auf Computer Vision (CV) -Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzsegmentierung, aber auch das Verständnis von Sequenzmodellen ist wertvoll, vor allem, da die Forschung eine Brücke zwischen NLP und CV für Aufgaben wie Videoverständnis oder Bilduntertitelung schlägt. In der Ultralytics-Dokumentation können Sie verschiedene ML-Modelle und -Konzepte näher untersuchen. Die Verwaltung der Schulung und des Einsatzes verschiedener Modelle kann mit Plattformen wie Ultralytics HUB rationalisiert werden. Ressourcen wie DeepLearning.AI bieten Kurse über Sequenzmodelle, einschließlich LSTMs.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert