Glosario

Texto a voz

Descubre cómo la tecnología avanzada de texto a voz (TTS) transforma el texto en voz real, mejorando la accesibilidad, la interacción con la IA y la experiencia del usuario.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El texto a voz (TTS) es un tipo de tecnología de asistencia y un campo dentro de la Inteligencia Artificial (IA) que convierte el texto digital escrito en voz hablada. Aprovechando los avances en el Aprendizaje Automático (AM), en particular el Aprendizaje Profundo (AD), los sistemas TTS modernos pueden generar un habla muy natural que imita la entonación y el ritmo humanos. Esta tecnología tiende un puente entre la información textual y el consumo auditivo, haciendo que el contenido digital sea más accesible y permitiendo nuevas formas de interacción persona-ordenador.

Cómo funciona la conversión de texto a voz

El proceso de convertir texto en voz suele implicar varias etapas, a menudo manejadas por sofisticadas arquitecturas de Redes Neuronales (NN ):

  1. Preprocesamiento del texto: El texto de entrada se limpia y normaliza. Esto implica expandir las abreviaturas, convertir los números en palabras y manejar la puntuación para preparar el texto para el análisis lingüístico. Esta etapa se basa en gran medida en técnicas del Procesamiento del Lenguaje Natural (PLN).
  2. Análisis lingüístico: El sistema analiza el texto normalizado para comprender su estructura y significado. Esto incluye la identificación de las partes de la oración y la transcripción fonética, convirtiendo las palabras en fonemas (las unidades básicas del sonido).
  3. Generación de prosodia: El sistema predice el ritmo, el tono, el acento y la entonación (prosodia) adecuados para el habla basándose en el análisis lingüístico. Este paso es crucial para que el habla sintetizada suene natural y no robótica. La investigación de laboratorios como Google AI ha hecho avanzar significativamente el modelado de la prosodia.
  4. Síntesis de forma de onda: Utilizando la información fonética y prosódica, se genera una forma de onda del habla (una señal de audio). Los primeros métodos consistían en concatenar fragmentos de voz pregrabados, mientras que los enfoques modernos suelen utilizar vocodificadores neuronales como WaveNet para sintetizar el audio directamente, lo que da como resultado una generación de voz de mayor calidad y más flexible.

Aplicaciones de la conversión de texto a voz

La tecnología TTS tiene numerosas aplicaciones prácticas en diversos ámbitos:

  • Accesibilidad: Los lectores de pantalla utilizan TTS para leer en voz alta los contenidos digitales, proporcionando un acceso esencial a las personas con discapacidad visual o con dificultades para leer, en consonancia con las Directrices de Accesibilidad Web (WCAG).
  • Asistentes virtuales y chatbots: Sistemas como Amazon Alexa, Google Assistant y Siri utilizan TTS para proporcionar respuestas de voz, lo que permite una interacción manos libres. Explora el concepto de Asistente Virtual.
  • Sistemas de navegación: Las aplicaciones GPS proporcionan indicaciones habladas giro a giro, mejorando la seguridad de los conductores que necesitan mantener los ojos en la carretera. Esto es relevante en áreas como la IA en los coches autoconducidos.
  • Aprendizaje electrónico y audiolibros: TTS convierte materiales educativos y libros en formato de audio, ofreciendo formas alternativas de aprender y consumir literatura.
  • Sistemas de anuncios públicos: Los anuncios automatizados en aeropuertos, estaciones de tren y otros espacios públicos suelen utilizar TTS. Mira cómo se utiliza la IA en la gestión de aeropuertos.
  • Juegos y entretenimiento: El TTS puede proporcionar locuciones para personajes o narraciones en videojuegos y otras aplicaciones de entretenimiento.

Texto a voz frente a tecnologías relacionadas

Es importante distinguir el TTS de los conceptos relacionados:

  • Reconocimiento del habla / Voz a texto: Es el proceso inverso del TTS. Los sistemas de reconocimiento de voz convierten el lenguaje hablado en texto escrito. Véase también Voz a Texto.
  • Procesamiento del Lenguaje Natural (PLN): La PNL es un campo más amplio centrado en capacitar a los ordenadores para comprender, interpretar y generar lenguaje humano. El TTS es un área de aplicación dentro de la PNL o estrechamente relacionada con ella, centrada específicamente en la síntesis del habla a partir del texto. Más información sobre la PNL.
  • Generación de texto: Mientras que el TTS vocaliza el texto existente, los modelos de Generación de Texto como el GPT-4 crean nuevo contenido textual.

Mientras que Ultralytics se centra principalmente en la visión por ordenador (VC ) con modelos como Ultralytics YOLO para tareas como la Detección de Objetos, el TTS representa otra rama importante de la IA, que a menudo se utiliza junto con los sistemas de visión en aplicaciones como la Robótica para permitir capacidades de interacción más completas. Muchos proveedores en la nube ofrecen servicios TTS, como AWS Polly y Google Cloud TTS, y también existen alternativas de código abierto como Mozilla TTS.

Leer todo