Glossaire

Synthèse vocale

Découvrez comment fonctionne la synthèse vocale (TTS) avec le Deep Learning et le NLP. Apprenez à intégrer Ultralytics avec TTS pour des applications de conversion en temps réel de la vision en voix.

La synthèse vocale (TTS) est une technologie d'assistance qui convertit un texte écrit en paroles. Souvent appelée technologie de « lecture à voix haute », les systèmes TTS prennent en charge les entrées de texte numérique, qu'il s'agisse de documents, de pages web ou de messages de chat en temps réel, et les synthétisent en paroles audibles. Alors que les premières versions produisaient des sons robotiques et peu naturels , la TTS moderne exploite les avancées du techniques d'apprentissage profond (DL) pour générer des voix semblables à celles des humains, avec une intonation, un rythme et des émotions corrects. Cette technologie constitue une interface essentielle pour l'accessibilité, l'éducation et le service client automatisé, comblant le fossé entre le contenu numérique et la consommation auditive.

Comment fonctionne la synthèse vocale

À la base, un moteur TTS doit résoudre deux problèmes principaux : traiter le texte en représentations linguistiques et convertir ces représentations en formes d'onde audio. Ce pipeline implique généralement plusieurs étapes. Tout d'abord, le texte est normalisé pour traiter les abréviations, les chiffres et les caractères spéciaux. Ensuite, un module de traitement du langage naturel (NLP) analyse le texte pour la transcription phonétique et la prosodie (accentuation et timing). Enfin, un vocodeur ou un synthétiseur neuronal génère le son réel.

Progrès récents en matière d' IA générative ont révolutionné ce domaine. Des modèles tels que Tacotron et FastSpeech utilisent des réseaux neuronaux (NN) pour apprendre le mappage complexe entre les séquences de texte et les spectrogrammes directement à partir des données. Cette approche de bout en bout permet une synthèse vocale très expressive qui peut imiter des locuteurs spécifiques, un concept connu sous le nom de clonage vocal.

Applications dans l'IA et l'apprentissage automatique

La synthèse vocale est rarement utilisée de manière isolée dans les écosystèmes d'IA modernes. Elle fonctionne souvent comme la couche de sortie de systèmes complexes , en collaboration avec d'autres technologies.

Assistants virtuels et chatbots : les agents intelligents tels qu'Amazon Alexa ou les bots de service client localisés utilisent de grands modèles linguistiques (LLM) pour générer des réponses textuelles, qui sont ensuite vocalisées par des moteurs TTS afin de créer une expérience conversationnelle fluide .
Outils d'accessibilité : les lecteurs d'écran s'appuient fortement sur la synthèse vocale pour rendre le contenu visuel accessible aux malvoyants. Les systèmes d'exploitation tels que iOS intègrent des fonctionnalitésiOS qui aident les utilisateurs à naviguer dans les applications et les sites web.
Systèmes de navigation : dans l'industrie automobile, les solutions d'IA dans le secteur automobile utilisent la synthèse vocale pour fournir des instructions détaillées, permettant aux conducteurs de garder les yeux sur la route tout en recevant des informations

Intégration avec la vision par ordinateur

L'une des applications les plus puissantes de la synthèse vocale apparaît lorsqu'elle est associée à la vision par ordinateur (CV). Cette combinaison permet de créer des systèmes « vision-voix » capables de décrire le monde physique à un utilisateur. Par exemple, un appareil portable pourrait detect dans une pièce et les annoncer à un utilisateur aveugle.

Python suivant montre comment utiliser le module modèle YOLO26 pour la détection d'objets , puis d'utiliser une bibliothèque TTS simple pour vocaliser le résultat.


from gtts import gTTS
from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Get the name of the first detected object class
class_name = results[0].names[int(results[0].boxes.cls[0])]

# Generate speech from the detection text
tts = gTTS(text=f"I found a {class_name}", lang="en")
tts.save("detection.mp3")

Pour les développeurs qui souhaitent faire évoluer ce type d'applications, la Ultralytics simplifie le processus de formation de modèles personnalisés sur des ensembles de données spécifiques, comme l'identification d'une devise spécifique ou la lecture de panneaux de signalisation distincts , avant de les déployer sur des périphériques de pointe où ils peuvent déclencher des alertes TTS.

Concepts connexes

Il est utile de distinguer le TTS des autres termes liés au traitement audio afin d'éviter toute confusion :

Reconnaissance vocale (STT): Il s'agit de l' inverse de la synthèse vocale. La reconnaissance vocale (ou reconnaissance automatique de la parole) convertit les données audio en texte écrit.
Clonage vocal: alors que la synthèse vocale standard utilise une voix prédéfinie, le clonage vocal utilise l'apprentissage automatique pour entraîner un modèle à partir d'échantillons vocaux d'une personne spécifique afin de générer une nouvelle voix qui lui ressemble exactement. Cela soulève d'importantes questions concernant l' éthique de l'IA et les deepfakes.
Apprentissage multimodal: ce terme désigne l'entraînement de modèles sur plusieurs types de données (texte, image, audio) simultanément. Un modèle multimodal pourrait être capable d'examiner une image et de produire naturellement une description vocale sans avoir besoin d'une étape TTS séparée.

Orientations futures

L'avenir de la synthèse vocale réside dans l'expressivité et les performances à faible latence. Les chercheurs d'organisations telles que Google repoussent les limites avec des modèles capables de chuchoter, de crier ou de transmettre du sarcasme en fonction du contexte. De plus, comme l'IA en périphérie devient plus répandue, des modèles TTS légers fonctionneront directement sur des appareils sans connexion Internet, améliorant ainsi la confidentialité et la vitesse des applications en temps réel

Synthèse vocale

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Comment fonctionne la synthèse vocale

Applications dans l'IA et l'apprentissage automatique

Intégration avec la vision par ordinateur

Concepts connexes

Orientations futures

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Qu'est-ce que l'estimation monoculaire de la profondeur ? Aperçu général

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Rejoindre la communauté Ultralytics