Glossário

Texto para voz

Descobre como a tecnologia avançada Text-to-Speech (TTS) transforma o texto em discurso realista, melhorando a acessibilidade, a interação com a IA e a experiência do utilizador.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O Text-to-Speech (TTS) é um tipo de tecnologia de assistência e um campo dentro da Inteligência Artificial (IA) que converte texto digital escrito em saída de voz falada. Aproveitando os avanços na Aprendizagem Automática (AM), particularmente na Aprendizagem Profunda (AP), os sistemas TTS modernos podem gerar um discurso altamente natural que imita a entoação e o ritmo humanos. Esta tecnologia preenche a lacuna entre a informação textual e o consumo auditivo, tornando o conteúdo digital mais acessível e permitindo novas formas de interação homem-computador.

Como funciona a conversão de texto em voz

O processo de conversão de texto em fala envolve normalmente várias fases, muitas vezes tratadas por arquitecturas sofisticadas de redes neuronais (NN):

  1. Pré-processamento de texto: O texto de entrada é limpo e normalizado. Isto envolve a expansão de abreviaturas, a conversão de números em palavras e o tratamento da pontuação para preparar o texto para a análise linguística. Esta fase baseia-se fortemente em técnicas de Processamento de Linguagem Natural (PLN).
  2. Análise linguística: O sistema analisa o texto normalizado para compreender a sua estrutura e significado. Isto inclui a identificação das partes do discurso e a transcrição fonética, convertendo palavras em fonemas (as unidades básicas do som).
  3. Geração de prosódia: O sistema prevê o ritmo, o tom, a tensão e a entoação (prosódia) apropriados para o discurso com base na análise linguística. Este passo é crucial para fazer com que o discurso sintetizado soe natural e não robótico. A investigação de laboratórios como o Google AI fez avançar significativamente a modelação da prosódia.
  4. Síntese da forma de onda: Utilizando a informação fonética e prosódica, é gerada uma forma de onda de fala (um sinal áudio). Os primeiros métodos envolviam a concatenação de trechos de fala pré-gravados, enquanto as abordagens modernas utilizam frequentemente vocoders neurais como o WaveNet para sintetizar o áudio diretamente, resultando numa geração de voz de maior qualidade e mais flexível.

Aplicações de conversão de texto em fala

A tecnologia TTS tem inúmeras aplicações práticas em vários domínios:

  • Acessibilidade: Os leitores de ecrã utilizam o TTS para ler conteúdos digitais em voz alta, proporcionando um acesso essencial a pessoas com deficiência visual ou com dificuldades de leitura, em conformidade com as Diretrizes de Acessibilidade da Web (WCAG).
  • Assistentes virtuais e chatbots: Sistemas como o Amazon Alexa, o Google Assistant e o Siri utilizam TTS para fornecer respostas de voz, permitindo uma interação mãos-livres. Explora o conceito de um assistente virtual.
  • Sistemas de navegação: As aplicações GPS fornecem direcções faladas passo a passo, aumentando a segurança dos condutores que precisam de manter os olhos na estrada. Isto é relevante em áreas como a IA em carros autónomos.
  • E-Learning e audiolivros: O TTS converte materiais educativos e livros em formato áudio, oferecendo formas alternativas de aprender e consumir literatura.
  • Sistemas de anúncios públicos: Os anúncios automatizados em aeroportos, estações de comboio e outros espaços públicos utilizam frequentemente TTS. Vê como a IA é utilizada na gestão de aeroportos.
  • Jogos e entretenimento: O TTS pode fornecer locuções para personagens ou narração em jogos de vídeo e outras aplicações de entretenimento.

Texto-voz vs. tecnologias relacionadas

É importante distinguir o TTS de conceitos relacionados:

  • Reconhecimento de fala / Fala para texto: Este é o processo inverso do TTS. Os sistemas de reconhecimento de fala convertem a linguagem falada em texto escrito. Ver também Speech-to-Text.
  • Processamento de linguagem natural (PNL): A PNL é um domínio mais vasto que visa permitir aos computadores compreender, interpretar e gerar linguagem humana. O TTS é uma área de aplicação dentro ou estreitamente relacionada com a PNL, especificamente centrada na síntese de voz a partir de texto. Explora mais sobre PNL.
  • Geração de texto: Enquanto o TTS vocaliza o texto existente, os modelos de geração de texto como o GPT-4 criam novos conteúdos de texto.

Enquanto Ultralytics se concentra principalmente na Visão por Computador (CV) com modelos como Ultralytics YOLO para tarefas como a deteção de objectos, o TTS representa outro ramo significativo da IA, frequentemente utilizado juntamente com sistemas de visão em aplicações como a robótica para permitir capacidades de interação mais abrangentes. Muitos fornecedores de serviços na nuvem oferecem serviços TTS, como o AWS Polly e o Google Cloud TTS, e também estão disponíveis alternativas de código aberto como o Mozilla TTS.

Lê tudo