Glossar

Sprache-zu-Text

Entdecke, wie die Speech-to-Text-Technologie gesprochene Sprache mithilfe von KI in Text umwandelt und so Sprachinteraktionen, Transkription und barrierefreie Tools ermöglicht.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Speech-to-Text (STT), auch bekannt als Automatic Speech Recognition (ASR), ist eine Technologie, die gesprochene Sprache in geschriebenen Text umwandelt. Sie überbrückt die Lücke zwischen menschlicher Sprache und maschinenlesbaren Textformaten und ist eine wichtige Komponente in vielen modernen Anwendungen der Künstlichen Intelligenz (KI) und des Maschinellen Lernens (ML). STT ermöglicht es Geräten und Software, Sprachbefehle zu verstehen und darauf zu reagieren, Audioinhalte zu transkribieren und die Interaktion zwischen Mensch und Computer durch Sprache zu erleichtern. Die zugrundeliegende Technologie umfasst in der Regel komplexe Modelle, die auf riesigen Mengen von Audiodaten(Big Data) trainiert werden, um Sprachgeräusche genau auf ihre entsprechenden Textdarstellungen abzubilden.

Wie Speech-to-Text funktioniert

Der Prozess der Umwandlung von Sprache in Text umfasst in der Regel zwei Hauptschritte: die akustische Modellierung und die Sprachmodellierung.

  1. Akustische Modellierung: In dieser Phase wird das Audio-Eingangssignal in eine Abfolge von akustischen Einheiten umgewandelt, oft in Phoneme (die grundlegenden Lauteinheiten einer Sprache). Deep Learning-Modelle (DL), insbesondere neuronale Netze (NN) wie rekurrente neuronale Netze (RNN) und Transformatoren, werden darauf trainiert, Muster in der Audiowellenform zu erkennen, die diesen phonetischen Einheiten entsprechen. Weitere Details zu akustischen Modellierungstechniken findest du online.
  2. Sprachmodellierung: Sobald das akustische Modell phonetische Repräsentationen erzeugt, übernimmt das Sprachmodell. Es analysiert Sequenzen von phonetischen Einheiten, um die wahrscheinlichste Wortfolge zu bestimmen, und berücksichtigt dabei Grammatik, Syntax und gängige Wortverwendungsmuster in einer bestimmten Sprache. Auf diese Weise werden Mehrdeutigkeiten und Fehler des akustischen Modells korrigiert und eine kohärente Textausgabe erzeugt. Erfahre mehr über Ansätze zur Sprachmodellierung.

Die Genauigkeit von STT-Systemen wird oft anhand von Metriken wie der Wortfehlerrate (Word Error Rate, WER) gemessen, die die Unterschiede zwischen dem vom System ausgegebenen Text und einer Referenztranskription quantifiziert.

Anwendungen in der realen Welt

Die Speech-to-Text-Technologie ermöglicht eine Vielzahl von Anwendungen in verschiedenen Bereichen:

  • Virtuelle Assistenten: Ermöglicht die Sprachinteraktion mit Geräten wie Amazon Alexa und Google Assistant für Aufgaben wie das Einstellen von Erinnerungen, das Abspielen von Musik oder das Beantworten von Fragen.
  • Transkriptionsdienste: Die automatische Umwandlung von Audiodaten aus Meetings, Interviews, Vorlesungen oder Medieninhalten in Text mit Diensten wie Otter.ai oder Rev.
  • Sprachsteuerungssysteme: Sie ermöglichen die freihändige Bedienung von Software, Fahrzeugen(KI in selbstfahrenden Autos) und Smart-Home-Geräten.
  • Zugänglichkeits-Tools: Unterstützung von Menschen mit Hör- oder Körperbehinderungen durch die Bereitstellung von Untertiteln in Echtzeit oder die Ermöglichung sprachbasierter Texteingabe. Ressourcen wie die W3C Web Accessibility Initiative (WAI) unterstreichen die Rolle solcher Technologien.
  • Kundenbetreuung: Analyse von Call Center-Aufzeichnungen zur Qualitätssicherung, Sentiment-Analyse und Extraktion von Schlüsselinformationen.

Verwandte Konzepte

Es ist wichtig, STT von ähnlichen Begriffen zu unterscheiden:

  • Text-to-Speech (TTS): Dies ist der umgekehrte Prozess, bei dem geschriebener Text in gesprochene Audioausgabe umgewandelt wird.
  • Spracherkennung: Wird oft synonym mit STT/ASR verwendet, kann aber auch umfassendere Aufgaben wie die Identifizierung von Sprechern oder die Erkennung von Emotionen anhand der Stimme umfassen. STT konzentriert sich speziell auf die Transkription des Inhalts der Sprache.
  • Verarbeitung natürlicher Sprache (NLP): STT ist häufig ein vorbereitender Schritt für NLP-Aufgaben. Sobald Sprache in Text umgewandelt wurde, können NLP-Techniken angewendet werden, um die Bedeutung zu verstehen, Entitäten zu extrahieren oder Übersetzungen vorzunehmen.

Speech-to-Text und Ultralytics

Ultralytics konzentriert sich in erster Linie auf Computer Vision (CV) mit Ultralytics YOLO Modellen für Aufgaben wie Objekterkennung und Bildsegmentierung, kann Speech-to-Text visuelle KI-Anwendungen ergänzen. In einem intelligenten Sicherheitssystem könnte STT zum Beispiel gesprochene Bedrohungen analysieren, die von Mikrofonen erfasst werden, und mit der YOLO zusammenarbeiten, um ein umfassendes Verständnis eines Ereignisses zu erhalten. Ultralytics HUB bietet eine Plattform für die Verwaltung und den Einsatz von KI-Modellen. Da sich die KI in Richtung multimodales Lernen bewegt, wird die Integration von STT mit Bildverarbeitungsmodellen immer wichtiger, um robuste KI-Systeme zu schaffen, möglicherweise als Teil eines größeren Computer-Vision-Projekt-Workflows. Open-Source-Toolkits wie Kaldi und Projekte wie Mozilla DeepSpeech haben den Bereich der ASR erheblich vorangebracht.

Alles lesen