术语表

语音到文本

了解语音转文本技术如何利用人工智能将口头语言转换成文本,从而实现语音交互、转录和无障碍工具。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

语音到文本(STT),也被广泛称为自动语音识别(ASR),是一种将口头语言转换为书面文本的技术。它是人类语音与机器可读文本格式之间的桥梁,是许多现代人工智能(AI)机器学习(ML)应用的重要组成部分。STT 使设备和软件能够理解和响应语音命令,转录音频内容,并通过语音促进人机交互。底层技术通常涉及在海量音频数据(大数据)上训练的复杂模型,以准确地将语音映射到相应的文本表示。

语音转文本的工作原理

将语音转换为文本的过程一般包括两个主要阶段:声学建模和语言建模。

  1. 声学建模:这一阶段的重点是将输入音频信号转换为一系列声学单元,通常是音素(语言中的基本声音单元)。深度学习 (DL)模型,特别是神经网络 (NN),如循环神经网络 (RNN)变压器,经过训练后可识别音频波形中与这些音素单元相对应的模式。有关声学建模技术的更多详情,请上网查询。
  2. 语言建模:一旦声学模型产生了语音表征,语言模型就会接手。它分析语音单元序列,确定最可能的单词序列,同时考虑语法、句法和特定语言中的常用单词使用模式。这有助于纠正来自语音模型的歧义和错误,从而产生连贯的文本输出。了解有关语言建模方法的更多信息。

STT 系统的准确性通常使用字错误率 (WER) 等指标来衡量,该指标量化了系统输出文本与参考转录文本之间的差异。

实际应用

语音转文本技术为各个领域的大量应用提供了动力:

  • 虚拟助手:支持与亚马逊 AlexaGoogle 助手等设备进行语音交互,以完成设置提醒事项、播放音乐或回答问题等任务。
  • 转录服务:使用Otter.aiRev .Ai等服务将会议、访谈、讲座或媒体内容中的音频自动转换为文本。
  • 语音控制系统:允许免提操作软件、车辆(自动驾驶汽车中的人工智能)和智能家居设备。
  • 无障碍工具:通过提供实时字幕或启用语音文本输入,为有听力障碍或身体残疾的人提供帮助。万维网联盟网络无障碍倡议(WAI)等资源强调了此类技术的作用。
  • 客户服务:分析呼叫中心录音以保证质量、进行情感分析并提取关键信息。

相关概念

必须将 STT 与类似术语区分开来:

  • 文本到语音(TTS)这是一个逆过程,将书面文本转换为口语音频输出。
  • 语音识别通常可与 STT/ASR 互换使用,但有时也包括更广泛的任务,如识别说话人或从语音中识别情绪。STT 特别侧重于转录语音内容。
  • 自然语言处理(NLP)STT 通常是 NLP 任务的第一步。一旦语音转换为文本,NLP 技术就可用于理解含义、提取实体或进行翻译。

语音到文本和Ultralytics

Ultralytics 主要专注于计算机视觉 (CV),并通过以下技术为客户提供服务 Ultralytics YOLO模型来完成物体检测图像分割等任务,而语音转文本技术则可以作为视觉人工智能应用的补充。例如,在智能安防系统中,STT 可以分析麦克风捕捉到的威胁语音,与YOLO 物体检测一起提供对事件的全面理解。Ultralytics HUB为管理和部署人工智能模型提供了一个平台,随着人工智能向多模态学习发展,STT与视觉模型的集成对于创建强大的人工智能系统将变得越来越重要,有可能成为大型计算机视觉项目工作流程的一部分。Kaldi等开源工具包和Mozilla DeepSpeech等项目极大地推动了 ASR 领域的发展。

阅读全部