Glossaire

De la parole au texte

Découvre comment la technologie Speech-to-Text convertit le langage parlé en texte à l'aide de l'IA, permettant ainsi les interactions vocales, la transcription et les outils d'accessibilité.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le Speech-to-Text (STT), également largement connu sous le nom de reconnaissance automatique de la parole (ASR), est une technologie qui convertit le langage parlé en texte écrit. Elle comble le fossé entre la parole humaine et les formats de texte lisibles par les machines, formant un composant crucial dans de nombreuses applications modernes d'intelligence artificielle (IA) et d'apprentissage automatique (ML). La STT permet aux appareils et aux logiciels de comprendre et de répondre aux commandes vocales, de transcrire le contenu audio et de faciliter l'interaction entre l'homme et l'ordinateur par le biais de la voix. La technologie sous-jacente implique généralement des modèles complexes entraînés sur de vastes quantités de données audio(Big Data) pour mapper avec précision les sons de la parole à leurs représentations textuelles correspondantes.

Comment fonctionne la synthèse vocale

Le processus de conversion de la parole en texte comporte généralement deux étapes principales : la modélisation acoustique et la modélisation linguistique.

  1. Modélisation acoustique : Cette étape se concentre sur la conversion du signal audio d'entrée en une séquence d'unités acoustiques, souvent des phonèmes (les unités de base du son dans une langue). Les modèles d'apprentissage profond (DL), en particulier les réseaux neuronaux (NN ) comme les réseaux neuronaux récurrents (RNN) et les transformateurs, sont entraînés à reconnaître des motifs dans la forme d'onde audio correspondant à ces unités phonétiques. Tu trouveras plus de détails sur les techniques de modélisation acoustique en ligne.
  2. Modélisation du langage : Une fois que le modèle acoustique produit des représentations phonétiques, le modèle linguistique prend le relais. Il analyse les séquences d'unités phonétiques pour déterminer la séquence de mots la plus probable, en tenant compte de la grammaire, de la syntaxe et des modèles d'utilisation des mots courants dans une langue spécifique. Cela permet de corriger les ambiguïtés et les erreurs du modèle acoustique et de produire un texte cohérent. En savoir plus sur les approches de modélisation du langage.

La précision des systèmes STT est souvent mesurée à l'aide de paramètres tels que le taux d'erreur sur les mots (WER), qui quantifie les différences entre le texte de sortie du système et une transcription de référence.

Applications dans le monde réel

La technologie Speech-to-Text est à l'origine d'un grand nombre d'applications dans divers domaines :

  • Assistants virtuels : Permettre l'interaction vocale avec des appareils comme Amazon Alexa et Google Assistant pour des tâches telles que la définition de rappels, la diffusion de musique ou la réponse à des questions.
  • Services de transcription : Convertir automatiquement en texte l'audio des réunions, des entretiens, des conférences ou des contenus médiatiques à l'aide de services comme Otter.ai ou Rev.
  • Systèmes de commande vocale : Permettre la commande mains libres de logiciels, de véhicules(IA dans les voitures auto-conduites) et d'appareils domestiques intelligents.
  • Outils d'accessibilité : Aider les personnes souffrant de déficiences auditives ou de handicaps physiques en leur fournissant des sous-titres en temps réel ou en leur permettant de saisir du texte à la voix. Des ressources telles que l'Initiative pour l'accessibilité du Web (WAI) du W3C soulignent le rôle de ces technologies.
  • Service à la clientèle : Analyser les enregistrements des centres d'appels pour l'assurance qualité, l'analyse des sentiments et l'extraction d'informations clés.

Concepts apparentés

Il est important de distinguer la STT des termes similaires :

  • Synthèse vocale (TTS): Il s'agit du processus inverse, qui consiste à convertir un texte écrit en sortie audio parlée.
  • Reconnaissance de la parole: Souvent utilisée de façon interchangeable avec STT/ASR, mais peut parfois englober des tâches plus larges comme l'identification du locuteur ou la reconnaissance des émotions à partir de la voix. La STT se concentre spécifiquement sur la transcription du contenu de la parole.
  • Traitement du langage naturel (NLP): Le STT est souvent une étape préliminaire aux tâches de traitement du langage naturel. Une fois la parole convertie en texte, des techniques de TAL peuvent être appliquées pour comprendre le sens, extraire des entités ou effectuer des traductions.

La conversion de la parole au texte et Ultralytics

Alors qu'Ultralytics se concentre principalement sur la vision par ordinateur (VA) avec Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'images, le Speech-to-Text peut compléter les applications d'IA visuelle. Par exemple, dans un système de sécurité intelligent, le STT pourrait analyser les menaces parlées capturées par des microphones, en travaillant aux côtés de la détection d'objets YOLO pour fournir une compréhension globale d'un événement. Ultralytics HUB offre une plateforme pour gérer et déployer des modèles d'IA, et à mesure que l'IA évolue vers l'apprentissage multimodal, l'intégration de STT aux modèles de vision deviendra de plus en plus importante pour créer des systèmes d'IA robustes, potentiellement dans le cadre d'un flux de travail de projet de vision par ordinateur plus large. Les boîtes à outils open-source comme Kaldi et les projets comme Mozilla DeepSpeech ont fait progresser de manière significative le domaine de la RAS.

Tout lire