Glossar

Spracherkennung

Entdecke, wie Spracherkennungstechnologie Audio in Text umwandelt und so KI-Lösungen wie Sprachassistenten, Transkription und mehr ermöglicht.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Spracherkennung, oft auch als automatische Spracherkennung (ASR) oder Sprache-zu-Text bezeichnet, ist eine Technologie der Künstlichen Intelligenz (KI) und Computerlinguistik, die es Computern ermöglicht, gesprochene Sprache zu verstehen und in geschriebenen Text umzuwandeln. Sie dient als wichtige Schnittstelle für die Interaktion zwischen Mensch und Computer und ermöglicht es Geräten und Anwendungen, auf Sprachbefehle zu reagieren und Audioeingaben zu verarbeiten. In diesem Bereich werden vor allem die Prinzipien des maschinellen Lernens (ML) und insbesondere des Deep Learning (DL) eingesetzt, um eine hohe Genauigkeit zu erreichen und mit unterschiedlichen Sprachmustern, Akzenten und Umgebungen umzugehen.

Wie die Spracherkennung funktioniert

Der Prozess der Umwandlung von Sprache in Text umfasst in der Regel mehrere wichtige Schritte. Zunächst wird der Ton mit einem Mikrofon aufgenommen und in ein digitales Signal umgewandelt. Dieses Rohsignal wird einer Vorverarbeitung wie Rauschunterdrückung und Normalisierung unterzogen. Als Nächstes werden akustische Merkmale aus dem Signal extrahiert, die Merkmale wie Frequenz und Energie im Zeitverlauf darstellen. Diese Merkmale werden dann von einem akustischen Modell verarbeitet, bei dem es sich oft um ein ausgeklügeltes neuronales Netzwerk (NN) handelt. Zu den gängigen Architekturen gehören rekurrente neuronale Netze (RNNs), LSTM-Netze (Long Short-Term Memory) und neuerdings auch Transformer-Modelle, die für ihre Effektivität bei der Modellierung von Sequenzen durch Mechanismen wie die Selbstaufmerksamkeit bekannt sind. Das akustische Modell ordnet die Merkmale grundlegenden Lauteinheiten, wie Phonemen, zu. Schließlich analysiert ein Sprachmodell, das auf umfangreichen Textkorpora (wie sie in Big-Data-Initiativen zu finden sind) trainiert wurde, Sequenzen dieser phonetischen Einheiten, um unter Berücksichtigung von Grammatik und Kontext die wahrscheinlichsten Wörter und Sätze zu bestimmen. Frameworks wie Kaldi und Toolkits von Plattformen wie Hugging Face bieten Ressourcen für den Aufbau von ASR-Systemen.

Wichtigste Unterscheidungsmerkmale

Es ist wichtig, die Spracherkennung von verwandten, aber unterschiedlichen Technologien zu unterscheiden:

  • Text-to-Speech (TTS): Diese Technologie erfüllt die gegenteilige Funktion von ASR: Sie wandelt geschriebenen Text in gesprochene Audioausgabe um. Man denke an Bildschirmlesegeräte oder die Stimmen von virtuellen Assistenten.
  • Natürliche Sprachverarbeitung (NLP): NLP ist zwar eng verwandt, konzentriert sich aber auf das Verstehen und Interpretieren von Sprache (sowohl von Text als auch von transkribierter Sprache), um Bedeutung, Absichten und Stimmungen zu extrahieren oder Aufgaben wie Übersetzung oder Zusammenfassung durchzuführen. ASR liefert die Texteingabe, mit der NLP-Systeme oft arbeiten. Die Sprachmodellierung ist ein zentraler Bestandteil sowohl von ASR als auch von NLP.
  • Erkennung des Sprechers: Hier geht es darum, zu erkennen , wer spricht, und nicht , was gesagt wird. Sie wird für die biometrische Authentifizierung oder die Sprechererkennung (Bestimmung verschiedener Sprecher in einem Gespräch) verwendet.

Anwendungen in der realen Welt

Die Spracherkennungstechnologie wird in zahlreichen Anwendungen in verschiedenen Bereichen eingesetzt:

  • Virtuelle Assistenten: Systeme wie Amazon Alexa, Google Assistant und Apples Siri verlassen sich stark auf ASR, um Benutzerbefehle und -anfragen zu verstehen.
  • Transkriptionsdienste: Tools wie Otter.ai transkribieren automatisch Meetings, Interviews und Vorlesungen und machen Audioinhalte durchsuchbar und zugänglich.
  • Sprachsteuerungssysteme: Werden in autonomen Fahrzeugen und modernen Autos zur freihändigen Steuerung von Navigation, Unterhaltung und Klimaeinstellungen eingesetzt(KI in selbstfahrenden Autos).
  • Diktiersoftware: Ermöglicht es Fachkräften in Bereichen wie dem Gesundheitswesen(KI im Gesundheitswesen) und dem Recht, Notizen und Berichte direkt in digitale Dokumente zu diktieren.
  • Accessibility Tools: Bietet wichtige Unterstützung für Menschen mit Behinderungen, indem es die Interaktion mit der Technologie über die Stimme ermöglicht. Projekte wie Common Voice von Mozilla zielen darauf ab, die Spracherkennung für verschiedene Stimmen zu verbessern.
  • Kundenservice: Betreibt interaktive Sprachdialogsysteme (IVR) und Sprachroboter in Call Centern für automatisierten Support.

Herausforderungen und zukünftige Wege

Trotz bemerkenswerter Fortschritte stehen ASR-Systeme immer noch vor Herausforderungen. Die genaue Transkription von Sprache in verrauschten Umgebungen, der Umgang mit verschiedenen Akzenten und Dialekten, die Überschneidung von Sprechern in Gesprächen und das Verstehen nuancierter Bedeutungen oder die Stimmungsanalyse bleiben aktive Forschungsbereiche. Zukünftige Fortschritte konzentrieren sich auf die Verbesserung der Robustheit durch fortschrittliche Deep-Learning-Techniken, die Erforschung multimodaler Modelle, die Audio- mit visuellen Informationen kombinieren (wie z. B. das Lippenlesen, das mit der Computer Vision verwandt ist), und die Nutzung von Techniken wie dem selbstüberwachten Lernen, um Modelle auf riesigen, nicht beschrifteten Datensätzen zu trainieren. Ultralytics konzentriert sich hauptsächlich auf KI-Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Bildsegmentierung konzentriert, tragen die Fortschritte in verwandten KI-Bereichen wie Spracherkennung zum gesamten Ökosystem intelligenter Systeme bei. In der Ultralytics kannst du dich über die Möglichkeiten der Modellschulung und des Einsatzes von Bildverarbeitungsmodellen informieren und mit Ultralytics HUB Projekte verwalten.

Alles lesen