Glosario

De voz a texto

Descubre cómo la tecnología de voz a texto convierte el lenguaje hablado en texto utilizando IA, permitiendo interacciones de voz, transcripción y herramientas de accesibilidad.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La conversión de voz a texto (STT), también conocida como reconocimiento automático de voz (ASR), es una tecnología que convierte el lenguaje hablado en texto escrito. Sirve de puente entre el habla humana y los formatos de texto legibles por máquinas, y es un componente crucial de muchas aplicaciones modernas de Inteligencia Artificial (IA) y Aprendizaje Automático (AM ). La STT permite que los dispositivos y el software comprendan y respondan a las órdenes de voz, transcriban el contenido de audio y faciliten la interacción persona-ordenador a través de la voz. La tecnología subyacente suele implicar modelos complejos entrenados en grandes cantidades de datos de audio(Big Data) para asignar con precisión los sonidos del habla a sus correspondientes representaciones textuales.

Cómo funciona la conversión de discurso a texto

El proceso de conversión del habla en texto suele implicar dos etapas principales: el modelado acústico y el modelado lingüístico.

  1. Modelado acústico: Esta etapa se centra en convertir la señal de audio de entrada en una secuencia de unidades acústicas, a menudo fonemas (las unidades básicas de sonido en un idioma). Los modelos de Aprendizaje Profundo (AD ), en particular las Redes Neuronales (RN ) como las Redes Neuronales Recurrentes (RNR) y los Transformadores, se entrenan para reconocer patrones en la forma de onda de audio correspondientes a estas unidades fonéticas. Puedes encontrar más detalles sobre las técnicas de modelado acústico en Internet.
  2. Modelado del lenguaje: Una vez que el modelo acústico produce representaciones fonéticas, el modelo lingüístico toma el relevo. Analiza secuencias de unidades fonéticas para determinar la secuencia más probable de palabras, teniendo en cuenta la gramática, la sintaxis y los patrones comunes de uso de las palabras dentro de una lengua concreta. Esto ayuda a corregir las ambigüedades y errores del modelo acústico, produciendo una salida de texto coherente. Explora más sobre los enfoques del modelado lingüístico.

La precisión de los sistemas STT suele medirse utilizando métricas como la Tasa de Error de Palabra (TEP), que cuantifica las diferencias entre el texto de salida del sistema y una transcripción de referencia.

Aplicaciones en el mundo real

La tecnología de voz a texto impulsa una amplia gama de aplicaciones en diversos ámbitos:

  • Asistentes virtuales: Permiten la interacción por voz con dispositivos como Amazon Alexa y Google Assistant para tareas como establecer recordatorios, reproducir música o responder preguntas.
  • Servicios de transcripción: Convertir automáticamente el audio de reuniones, entrevistas, conferencias o contenido multimedia en texto utilizando servicios como Otter.ai o Rev.
  • Sistemas de control por voz: Permiten el manejo manos libres de software, vehículos(IA en coches autoconducidos) y dispositivos domésticos inteligentes.
  • Herramientas de accesibilidad: Ayudan a las personas con deficiencias auditivas o discapacidades físicas proporcionándoles subtítulos en tiempo real o permitiendo la introducción de texto por voz. Recursos como la Iniciativa de Accesibilidad Web (WAI) del W3C destacan el papel de estas tecnologías.
  • Atención al cliente: Análisis de grabaciones de centros de llamadas para garantizar la calidad, Análisis de Sentimiento y extracción de información clave.

Conceptos relacionados

Es importante distinguir STT de términos similares:

  • Texto a voz (TTS): Es el proceso inverso, que convierte el texto escrito en audio hablado.
  • Reconocimiento de la voz: A menudo se utiliza indistintamente con STT/ASR, pero a veces puede abarcar tareas más amplias como la identificación del hablante o el reconocimiento de emociones a partir de la voz. El STT se centra específicamente en transcribir el contenido del habla.
  • Procesamiento del Lenguaje Natural (PLN): El STT suele ser un paso previo para las tareas de PNL. Una vez convertida la voz en texto, pueden aplicarse técnicas de PLN para comprender el significado, extraer entidades o realizar la traducción.

Voz a texto y Ultralytics

Mientras que Ultralytics se centra principalmente en la visión por ordenador (VC ) con Ultralytics YOLO para tareas como la detección de objetos y la segmentación de imágenes, la conversión de voz a texto puede complementar las aplicaciones de IA visual. Por ejemplo, en un sistema de seguridad inteligente, STT podría analizar las amenazas habladas captadas por micrófonos, trabajando junto con la detección de objetos YOLO para proporcionar una comprensión global de un suceso. Ultralytics HUB ofrece una plataforma para gestionar y desplegar modelos de IA, y a medida que la IA avanza hacia el Aprendizaje Multimodal, la integración de STT con modelos de visión será cada vez más importante para crear sistemas de IA robustos, potencialmente como parte de un flujo de trabajo más amplio de un proyecto de visión por ordenador. Los conjuntos de herramientas de código abierto como Kaldi y proyectos como Mozilla DeepSpeech han hecho avanzar significativamente el campo de la ASR.

Leer todo