Glossar

Sequenz-zu-Sequenz-Modelle

Entdecke, wie Sequenz-zu-Sequenz-Modelle Eingaben in Ausgabesequenzen umwandeln und so KI-Aufgaben wie Übersetzung, Chatbots und Spracherkennung unterstützen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Sequence-to-Sequence (Seq2Seq)-Modelle sind eine Klasse von Deep-Learning-Architekturen, die eine Eingabesequenz in eine Ausgabesequenz umwandeln, wobei die Länge der Eingabe- und Ausgabesequenz unterschiedlich sein kann. Ursprünglich wurden diese Modelle auf der Grundlage von rekurrenten neuronalen Netzen (RNNs) entwickelt und bilden die Grundlage für viele Aufgaben, bei denen es um sequenzielle Daten geht, insbesondere in der natürlichen Sprachverarbeitung (NLP). Im Kern geht es darum, Sequenzen wie Sätze, Audioclips oder Zeitreihen von einem Bereich in einen anderen zu übertragen.

Wie Sequenz-zu-Sequenz-Modelle funktionieren

Seq2Seq-Modelle bestehen in der Regel aus zwei Hauptkomponenten: einem Encoder und einem Decoder.

  1. Kodierer: Dieser Teil verarbeitet die gesamte Eingabesequenz (z. B. einen Satz auf Französisch) Schritt für Schritt. Bei jedem Schritt aktualisiert er seinen internen verborgenen Zustand. Der letzte verborgene Zustand, der oft als "Kontextvektor" oder "Gedankenvektor" bezeichnet wird, soll eine Zusammenfassung oder das Wesentliche der Eingabesequenz erfassen. Frühe Seq2Seq-Modelle verwendeten zu diesem Zweck RNNs oder LSTMs, wie in der Originalarbeit zum Sequence to Sequence Learning beschrieben.
  2. Decoder: Diese Komponente nimmt den endgültigen Kontextvektor des Encoders und erzeugt schrittweise die Ausgabesequenz (z. B. den übersetzten Satz auf English). Sie verwendet den Kontextvektor als Ausgangszustand und erzeugt in jedem Zeitschritt ein Element der Ausgabesequenz, wobei sie ihren eigenen verborgenen Zustand aktualisiert.

Eine wichtige Neuerung, die die Leistung von Seq2Seq vor allem bei längeren Sequenzen deutlich verbessert hat, ist der Attention-Mechanismus. Der Attention-Mechanismus ermöglicht es dem Decoder, bei der Generierung jedes Ausgangselements auf verschiedene Teile der versteckten Zustände der Eingangssequenz (nicht nur auf den endgültigen Kontextvektor) zurückzugreifen und deren Bedeutung dynamisch abzuwägen, wie von Bahdanau et al. vorgeschlagen.

Relevanz und Entwicklung

Die Seq2Seq-Modelle stellten einen großen Durchbruch dar, insbesondere für Aufgaben, bei denen die Eingangs- und Ausgangslängen variabel sind und das Alignment komplex ist. Sie boten einen flexiblen Rahmen für die Bearbeitung verschiedener Sequenztransformationsprobleme. Die ursprünglichen RNN-basierten Seq2Seq-Modelle waren zwar bahnbrechend, hatten aber mit weitreichenden Abhängigkeiten zu kämpfen. Dies führte zur Entwicklung von Transformer-Modellen, die sich vollständig auf Aufmerksamkeitsmechanismen und Parallelverarbeitung stützen und die RNNs weitgehend ersetzen, um bei vielen Sequenzaufgaben die beste Leistung zu erzielen. Das zentrale Encoder-Decoder-Konzept bleibt jedoch einflussreich. Frameworks wie PyTorch und TensorFlow bieten robuste Werkzeuge, um sowohl traditionelle Seq2Seq- als auch moderne Transformer-Modelle zu erstellen.

Anwendungen in KI und ML

Seq2Seq-Modelle, einschließlich ihrer modernen Transformer-basierten Nachfolger, werden in zahlreichen Anwendungen eingesetzt:

  • Maschinelle Übersetzung: Die Übersetzung von Texten aus einer Ausgangssprache in eine Zielsprache (z. B. für Dienste wie Google Translate).
  • Text-Zusammenfassung: Erstellen von kürzeren Zusammenfassungen aus langen Artikeln oder Dokumenten.
  • Chatbots und Fragebeantwortung: Generierung von Gesprächsantworten oder Antworten auf der Grundlage von Eingabetext oder Fragen. Viele moderne Chatbots nutzen fortschrittliche Transformer-Architekturen wie GPT-4.
  • Spracherkennung: Die Umwandlung von Sequenzen von Audiomerkmalen in Sequenzen von Text (Transkription).
  • Bildbeschriftung: Das Erzeugen von Textbeschreibungen (Wortfolgen) für Eingabebilder. Diese Aufgabe unterscheidet sich von der Objekterkennung, die von Modellen wie Ultralytics YOLOdurchgeführt werden, geht es darum, visuelle Eingaben in sequenzielle Ausgaben umzuwandeln. Die Forschung an Institutionen wie der Stanford NLP Group beschäftigt sich häufig mit diesen Bereichen.

Während Seq2Seq-Modelle in erster Linie mit NLP in Verbindung gebracht werden, finden von ihnen inspirierte Aufmerksamkeitsmechanismen auch in der Computer Vision Anwendung, zum Beispiel in bestimmten Komponenten von Erkennungsmodellen wie RT-DETR oder in Vision Transformers. Du kannst verschiedene Modelle auf Plattformen wie Hugging Face.

Alles lesen