术语表

语音到文本

了解语音转文本技术如何利用人工智能将口头语言转换成文本,从而实现语音交互、转录和无障碍工具。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

语音到文本(STT),也被广泛称为自动语音识别(ASR),是一种使计算机能够理解人类口语并将其转录为书面文本的技术。在更广泛的人工智能(AI)机器学习(ML)领域,它是人机交互和数字处理之间的重要桥梁。通过将音频流转换为文本数据,STT 使机器能够处理、分析和响应语音输入,为大量应用提供动力。

语音转文本的工作原理

STT 的核心是分析音频信号的复杂算法。这一过程通常包括两个主要部分:

  1. 声学模型:该组件将音频输入片段映射为语音单元,即语言的基本音。尽管发音、口音和背景噪音存在差异,它仍能学会区分不同的声音。先进的声学建模技术通常采用深度学习(DL)架构,如递归神经网络(RNN)变形器
  2. 语言模型:该组件从声学模型中提取语音单元序列,并将其转换为连贯的单词、短语和句子。它使用统计概率(通常是从大量文本数据集中学习的)来预测最可能的单词序列,从而提高转录的准确性和流畅性。语言建模自然语言处理(NLP)的一个基本方面。

训练这些模型需要大量的标注音频数据(训练数据),这些数据代表了不同的说话风格、语言和声学条件。

实际应用

STT 技术与许多现代应用密不可分:

  • 虚拟助手:为智能手机和智能扬声器等设备启用语音命令(SiriAlexaGoogle Assistant)。请参阅我们的虚拟助理术语表
  • 转录服务:使用Otter.ai 等工具将会议、讲座、访谈和语音邮件自动转换成文本。这在医疗口述和法律文件等领域尤为重要。
  • 语音控制系统:允许免提操作设备,常见于汽车系统的人工智能
  • 无障碍工具:为有听力障碍的人提供实时字幕,提高媒体无障碍程度。
  • 呼叫中心分析:转录客户来电以分析情感、识别趋势并提高服务质量。

与相关技术的主要区别

必须将 STT 与类似术语区分开来:

  • 文本到语音(TTS)执行相反的功能,将书面文本转换为口语音频。
  • 发言者识别:重点是根据语音特征识别在说话,而不是转录说话内容说话人识别系统用于身份验证或日记化(确定谁在什么时候说话)。
  • 自然语言理解(NLU)自然语言理解(NLU):NLP 的一个子领域,它不局限于转录,而是解释口语背后的含义、意图和情感。

挑战与未来方向

尽管取得了重大进展,STT 仍然面临着各种挑战,如准确转录带有浓重口音、背景噪音、重叠说话者的语音,以及理解上下文或语言模糊性。减少从不平衡性训练数据中学到的人工智能偏差也至关重要。Google 人工智能博客OpenAI 博客等平台经常重点介绍正在进行的研究,研究重点是提高鲁棒性、实时性能和多语言能力。

语音到文本和Ultralytics

Ultralytics 主要专注于计算机视觉 (CV),并通过以下技术为客户提供服务 Ultralytics YOLO模型来完成物体检测图像分割等任务,而语音转文本技术则可以补充视觉人工智能应用。例如,在智能安防系统中,STT 可以分析麦克风捕捉到的威胁语音,与YOLO 物体检测一起工作,提供对事件的全面理解,并可能遵循计算机视觉项目的工作流程Ultralytics HUB提供了一个管理和部署人工智能模型的平台,随着人工智能朝着使用多模态模型进行多模态学习的方向发展,将 STT 与使用诸如 PyTorch等框架构建的视觉模型进行整合将变得越来越重要。Kaldi等开源工具包和Mozilla DeepSpeech等项目将继续推动这一领域的发展,为Ultralytics Docs 等资源中记录的更广泛的人工智能生态系统中的可用资源做出贡献。

阅读全部