Glossaire

Synthèse vocale

Découvre comment la technologie avancée de synthèse vocale (TTS) transforme le texte en une parole réaliste, améliorant ainsi l'accessibilité, l'interaction avec l'IA et l'expérience de l'utilisateur.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La synthèse vocale (TTS) est un type de technologie d'assistance et un domaine de l'intelligence artificielle (IA) qui convertit le texte numérique écrit en sortie vocale parlée. En s'appuyant sur les progrès de l'apprentissage automatique (ML), en particulier de l 'apprentissage profond (DL), les systèmes TTS modernes peuvent générer une parole à consonance très naturelle qui imite l'intonation et le rythme humains. Cette technologie comble le fossé entre les informations textuelles et la consommation auditive, ce qui rend les contenus numériques plus accessibles et permet de nouvelles formes d'interaction entre l'homme et l'ordinateur.

Comment fonctionne la synthèse vocale

Le processus de conversion du texte en parole comporte généralement plusieurs étapes, souvent gérées par des architectures de réseaux neuronaux (NN) sophistiquées :

  1. Prétraitement du texte : Le texte d'entrée est nettoyé et normalisé. Il s'agit de développer les abréviations, de convertir les nombres en mots et de traiter la ponctuation pour préparer le texte à l'analyse linguistique. Cette étape s'appuie fortement sur des techniques de traitement du langage naturel (NLP).
  2. Analyse linguistique : Le système analyse le texte normalisé pour en comprendre la structure et le sens. Cela comprend l'identification des parties du discours et la transcription phonétique, c'est-à-dire la conversion des mots en phonèmes (les unités de base du son).
  3. Génération de la prosodie : Le système prédit le rythme, la hauteur, l'accentuation et l'intonation (prosodie) appropriés pour le discours en se basant sur l'analyse linguistique. Cette étape est cruciale pour que la parole synthétisée semble naturelle plutôt que robotique. Les recherches menées par des laboratoires tels que Google AI ont permis de faire progresser de manière significative la modélisation de la prosodie.
  4. Synthèse de la forme d'onde : À l'aide des informations phonétiques et prosodiques, une forme d'onde de la parole (un signal audio) est générée. Les premières méthodes consistaient à concaténer des bribes de discours préenregistrées, tandis que les approches modernes utilisent souvent des vocodeurs neuronaux comme WaveNet pour synthétiser directement l'audio, ce qui permet de générer des voix de meilleure qualité et plus flexibles.

Applications de la synthèse vocale

La technologie TTS a de nombreuses applications pratiques dans divers domaines :

  • Accessibilité : Les lecteurs d'écran utilisent le TTS pour lire le contenu numérique à haute voix, offrant ainsi un accès essentiel aux personnes malvoyantes ou ayant des difficultés de lecture, conformément aux directives d'accessibilité du Web (WCAG).
  • Assistants virtuels et chatbots : Des systèmes comme Amazon Alexa, Google Assistant et Siri utilisent le TTS pour fournir des réponses vocales, ce qui permet une interaction mains libres. Explore le concept d'assistant virtuel.
  • Systèmes de navigation : Les applications GPS fournissent des indications vocales virage par virage, ce qui améliore la sécurité des conducteurs qui doivent garder les yeux sur la route. Cela est pertinent dans des domaines tels que l 'IA dans les voitures auto-conduites.
  • Apprentissage en ligne et livres audio : TTS convertit le matériel éducatif et les livres en format audio, offrant ainsi d'autres moyens d'apprendre et de consommer de la littérature.
  • Systèmes d'annonces publiques : Les annonces automatisées dans les aéroports, les gares et autres espaces publics utilisent souvent le TTS. Vois comment l'IA est utilisée dans la gestion des aéroports.
  • Jeux et divertissements : Le TTS peut fournir des voix off pour les personnages ou la narration dans les jeux vidéo et autres applications de divertissement.

La synthèse vocale et les technologies connexes

Il est important de distinguer les TTS des concepts apparentés :

  • Reconnaissance de la parole / Speech-to-Text : Il s'agit du processus inverse du TTS. Les systèmes de reconnaissance vocale convertissent le langage parlé en texte écrit. Voir aussi Speech-to-Text.
  • Traitement du langage naturel (NLP) : Le NLP est un domaine plus large qui vise à permettre aux ordinateurs de comprendre, d'interpréter et de générer du langage humain. Le TTS est un domaine d'application qui fait partie du NLP ou qui y est étroitement lié, et qui se concentre spécifiquement sur la synthèse de la parole à partir du texte. En savoir plus sur le NLP.
  • Génération de texte : Alors que le TTS vocalise un texte existant, les modèles de génération de texte tels que GPT-4 créent un nouveau contenu textuel.

Alors qu'Ultralytics se concentre principalement sur la vision par ordinateur (VA) avec des modèles tels que Ultralytics YOLO pour des tâches telles que la détection d'objets, le TTS représente une autre branche importante de l'IA, souvent utilisée parallèlement aux systèmes de vision dans des applications telles que la robotique pour permettre des capacités d'interaction plus complètes. De nombreux fournisseurs de cloud proposent des services TTS, comme AWS Polly et Google Cloud TTS, et des alternatives open-source comme Mozilla TTS sont également disponibles.

Tout lire