术语表

语音识别

了解语音识别技术如何将音频转化为文本，为语音助手、转录等人工智能解决方案提供支持。

语音识别（通常称为自动语音识别（ASR）或语音到文本）是人工智能（AI）和计算语言学中的一项技术，可使计算机理解人类口语并将其转录为书面文本。它是人机交互的重要界面，允许设备和应用程序响应语音命令和处理音频输入。这一领域大量采用了机器学习（ML），尤其是深度学习（DL）的原理，以实现高水平的准确性，并处理语音模式、口音和环境的变化。

语音识别如何工作

将语音转换为文本的过程通常包括几个关键阶段。首先，使用麦克风采集音频并转换成数字信号。原始音频需要经过降噪和归一化等预处理步骤。接着，从信号中提取声学特征，代表随时间变化的频率和能量等特征。这些特征随后由声学模型进行处理，该模型通常是一个复杂的神经网络（NN）。常见的架构包括递归神经网络 (RNN)、长短期记忆网络 (LSTM)，以及最近的变压器模型。声学模型将特征映射到声音的基本单位，如音素。最后，在大量文本语料库（如大数据计划中发现的语料库）上训练的语言模型会分析这些音素单位的序列，以确定最可能的单词和句子，同时考虑语法和上下文。像Kaldi这样的框架和像 Hugging Face等平台的工具包为构建 ASR 系统提供了资源。

主要区别

必须将语音识别与相关但不同的技术区分开来：

文本到语音（TTS）：该技术的功能与 ASR 相反，它将书面文本转换为口语音频输出。想想屏幕阅读器或虚拟助手的声音。
自然语言处理（NLP）：自然语言处理与 NLP 密切相关，NLP 侧重于理解和解释语言（包括文本和转录语音），以提取意义、意图、情感或执行翻译或摘要等任务。ASR 提供了 NLP 系统经常使用的文本输入。语言建模是 ASR 和 NLP 的核心组成部分。
发言者识别：这包括识别谁在说话，而不是在说什么。它用于生物识别身份验证或说话人日记（确定对话中的不同说话人）。

实际应用

语音识别技术已融入各个领域的众多应用中：

虚拟助理：亚马逊 Alexa、Google 助手和苹果 Siri 等系统主要依靠 ASR 来理解用户的命令和询问。
转录服务： Otter.ai等工具可自动转录会议、访谈和讲座内容，使音频内容可搜索、可访问。
语音控制系统：在自动驾驶汽车和现代汽车中广泛使用，用于免提控制导航、娱乐和气候设置（自动驾驶汽车中的人工智能）。
听写软件：让医疗保健（医疗保健领域的人工智能）和法律等领域的专业人士能够将笔记和报告直接口述为数字文档。
无障碍工具：为残障人士提供必要的帮助，使他们能够通过语音与技术互动。Mozilla 的 "共同语音"（Common Voice）等项目旨在改进 ASR，以适应不同的语音。
客户服务：为呼叫中心的交互式语音应答（IVR）系统和语音机器人提供动力，实现自动支持。

挑战与未来方向

尽管取得了令人瞩目的进展，ASR 系统仍然面临着挑战。在嘈杂的环境中准确转录语音、处理不同的口音和方言、处理对话中说话人的重叠、理解细微的含义或情感分析等仍是活跃的研究领域。未来的发展重点是通过先进的深度学习技术提高鲁棒性，探索结合音频和视觉信息的多模态模型（如唇读，与计算机视觉相关），以及利用自我监督学习等技术在大量无标记数据集上训练模型。Ultralytics 主要关注视觉人工智能模型，例如 Ultralytics YOLO等视觉人工智能模型，用于物体检测和图像分割等任务，而语音识别等相关人工智能领域的进展也为整个智能系统生态系统做出了贡献。您可以在Ultralytics 文档中探索视觉模型的模型训练和部署选项，并使用Ultralytics HUB 管理项目。

语音识别

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

语音识别如何工作

主要区别

实际应用

挑战与未来方向

阅读更多博客

加入Ultralytics 社区