Glossar

Text-to-Speech

Entdecke, wie fortschrittliche Text-to-Speech (TTS)-Technologie Text in lebensechte Sprache umwandelt und so die Barrierefreiheit, die KI-Interaktion und das Nutzererlebnis verbessert.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Text-to-Speech (TTS), auch bekannt als Sprachsynthese, ist eine Technologie aus dem Bereich der Künstlichen Intelligenz (KI), die geschriebenen Text in hörbare menschliche Sprache umwandelt. Ihr Hauptziel ist es, automatisch eine natürlich klingende Sprachausgabe zu erzeugen, die digitale Inhalte zugänglich macht und sprachbasierte Interaktionen ermöglicht. TTS-Systeme nutzen Techniken der natürlichen Sprachverarbeitung (NLP) und des Deep Learning (DL), um den eingegebenen Text zu verstehen und entsprechende Audiowellenformen zu synthetisieren. Diese Fähigkeit ist entscheidend für die Entwicklung interaktiver Anwendungen und unterstützender Technologien.

Wie Text-to-Speech funktioniert

Moderne TTS-Systeme folgen in der Regel einem mehrstufigen Prozess, der oft mit ausgefeilten Machine Learning (ML ) Modellen umgesetzt wird:

  1. Textvorverarbeitung: Der Eingabetext wird bereinigt und normalisiert. Dazu gehören das Erweitern von Abkürzungen, das Korrigieren der Zeichensetzung und die Identifizierung der Satzstruktur, um den Text für die linguistische Analyse vorzubereiten. NLP-Techniken helfen dabei, die Nuancen des Textes zu verstehen.
  2. Linguistische Analyse: Das System analysiert den vorverarbeiteten Text, um sprachliche Merkmale wie Phoneme (Grundeinheiten des Klangs), Prosodie (Rhythmus, Betonung, Intonation) und Phrasierung zu extrahieren. In diesem Schritt wird festgelegt , wie der Text klingen soll.
  3. Akustische Modellierung: Deep Learning-Modelle wie Recurrent Neural Networks (RNNs), Convolutional Neural Networks (CNNs) oder Transformers bilden die sprachlichen Merkmale auf akustische Merkmale (wie Mel-Spektrogramme) ab. Diese Modelle werden auf großen Datensätzen von Texten trainiert, die mit entsprechenden menschlichen Sprachaufnahmen gepaart sind.
  4. Vocoding (Wellenformsynthese): Ein Vocoder wandelt die akustischen Merkmale in eine hörbare Audiowellenform um. Frühe Vocoder waren oft parametrisch, aber moderne Ansätze wie WaveNet(entwickelt von DeepMind) nutzen neuronale Netze, um sehr realistisches, originalgetreues Audio direkt zu erzeugen.

Hauptunterschiede zu verwandten Technologien

TTS unterscheidet sich von anderen KI-gesteuerten Text- und Sprachverarbeitungstechnologien:

  • Speech-to-Text (STT): Dies ist der umgekehrte Prozess von TTS. STT, auch Spracherkennung genannt, wandelt gesprochene Sprache in geschriebenen Text um. TTS erzeugt Sprache, STT interpretiert Sprache.
  • Text-to-Image: Diese Technologie erzeugt statische Bilder auf der Grundlage von Textbeschreibungen. Sie arbeitet im visuellen Bereich, im Gegensatz zu TTS, das sich auf die Audiogenerierung konzentriert. Generative KI-Modelle wie DALL-E fallen in diese Kategorie.
  • Text-zu-Video: Diese Modelle sind eine Erweiterung der Text-zu-Bild-Methode und generieren Videosequenzen aus Textaufforderungen, die eine zeitliche Dynamik und Bewegung beinhalten. Sora von OpenAI ist ein Beispiel dafür.

Anwendungen in der realen Welt

Die TTS-Technologie hat zahlreiche praktische Anwendungen, die das Nutzererlebnis und die Barrierefreiheit verbessern:

  • Tools für Barrierefreiheit: Bildschirmlesegeräte nutzen TTS, um digitale Inhalte für sehbehinderte Menschen vorzulesen und so den Zugang zu Websites, Dokumenten und Anwendungen zu verbessern, wobei sie sich oft an Standards wie den Web Content Accessibility Guidelines (WCAG) orientieren.
  • Virtuelle Assistenten und Chatbots: Sprachassistenten wie Amazon Alexa, Google Assistant und Apple Siri nutzen TTS, um gesprochene Antworten auf Nutzeranfragen zu geben und ermöglichen so eine freihändige Interaktion.
  • Navigationssysteme: GPS-Systeme im Auto und mobile Navigations-Apps nutzen TTS, um gesprochene Abbiegehinweise zu liefern, was für Anwendungen im Automobilbereich entscheidend ist.
  • E-Learning und Erstellung von Inhalten: TTS kann automatisch Sprecher/innen für Bildungsmaterialien, Präsentationen, Hörbücher und Videokommentare erzeugen und so die Produktionszeit und -kosten senken. Plattformen wie Coursera verwenden manchmal synthetische Stimmen.
  • Öffentliche Durchsagesysteme: Automatische Ansagen auf Flughäfen, Bahnhöfen(KI im Verkehrswesen) und anderen öffentlichen Plätzen basieren oft auf TTS.

Technologische Fortschritte und Tools

Die Qualität von TTS hat sich dank der Fortschritte beim Deep Learning dramatisch verbessert. Moderne Systeme können Sprache produzieren, die nur schwer von menschlichen Aufnahmen zu unterscheiden ist, und dabei Nuancen wie Emotionen und Sprechstil einfangen. Das Klonen von Stimmen ermöglicht es Systemen, bestimmte menschliche Stimmen zu imitieren, nachdem sie mit relativ kleinen Mengen von Audiobeispielen trainiert wurden.

Verschiedene Tools und Plattformen erleichtern die Entwicklung und den Einsatz von TTS-Anwendungen:

Text-to-Speech und Ultralytics

Während Ultralytics sich in erster Linie auf Computer Vision (CV) mit Modellen wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Bildsegmentierung, kann TTS als ergänzende Technologie dienen. Zum Beispiel könnte ein CV-System, das Objekte in einer Szene identifiziert, TTS nutzen, um seine Ergebnisse verbal zu beschreiben. In dem Maße, wie sich die KI in Richtung multimodales Lernen entwickelt, das Sehen und Sprache kombiniert(siehe Blogbeitrag über die Verbindung von NLP und Lebenslauf), wird die Integration von TTS in Lebenslaufmodelle immer wertvoller werden. Plattformen wie Ultralytics HUB bieten Werkzeuge für die Verwaltung von KI-Modellen, und künftige Entwicklungen könnten eine engere Integration verschiedener KI-Modalitäten, einschließlich TTS, in einen einheitlichen Projektworkflow ermöglichen.

Alles lesen