术语表

隐马尔可夫模型(HMM)

了解隐马尔可夫模型(HMM)、其原理、在语音识别、生物信息学和人工智能中的应用,以及它们如何推断隐藏状态。

隐马尔可夫模型(HMM)是一种用于分析序列数据的人工智能统计模型,其基础系统被假定为具有未观测(隐)状态的马尔可夫过程。其核心思想是根据一连串可观察到的输出对一连串隐藏状态进行推断。HMM 建立在马尔可夫特性的基础上,即未来状态的概率只取决于当前状态,而不取决于整个历史状态。这使得 HMM 成为自然语言处理(NLP)和生物信息学等领域任务的强大工具。

隐马尔可夫模型的工作原理

HMM 由几个关键组件组成,这些组件共同对连续数据进行建模:

  • 隐藏状态:这些是模型试图推断的系统不可观测状态。例如,在天气预报中,隐藏状态可能是 "晴天"、"多云 "或 "下雨"。
  • 可观测输出(排放):这些是每个隐藏状态可以产生的可见数据点。以天气为例,观测结果可以是 "高温"、"低温 "或 "高湿度"。
  • 转换概率:这些概率决定了从一个隐藏状态转换到另一个隐藏状态的可能性。例如,"晴天 "之后有一定概率会出现 "阴天"。
  • 发射概率:这些概率表示在系统处于特定隐藏状态时观察到特定输出的可能性。例如,如果隐藏状态为 "多雨",观察到 "高湿度 "的概率可能会更高。

为了进行预测,HMM 使用既定的算法。维特比算法通常用于根据观测序列找到最可能的隐藏状态序列。为了训练模型并从训练数据中学习其概率分布,通常采用Baum-Welch 算法

实际应用

几十年来,HMM 已成功应用于多个领域。下面是几个突出的例子:

  1. 语音识别在经典的语音识别系统中,HMMs 是一种工具。隐藏状态对应音素(语言中声音的基本单位),可观测输出是从录制的语音中提取的声学特征。HMM 的任务是从音频信号中确定最可能的音素序列,然后用来识别口语单词。
  2. 生物信息学:HMM 是计算生物学的基石,尤其适用于基因查找。在这种情况下,隐藏状态可能代表基因的一部分,如 "外显子"(编码区)或 "内含子"(非编码区),而观测值则是 DNA 碱基序列(A、C、G、T)。通过分析长 DNA 序列,HMM 可以确定基因的最可能位置。美国国家生物技术信息中心(NCBI)详细介绍了这些方法。

与相关概念的比较

必须将 HMM 与其他序列模型区分开来:

虽然较新的深度学习方法通常能获得最先进的结果,但 HMM 因其可解释性(明确的状态和概率)和有效性而仍然很有价值,尤其是在训练数据有限或可以将领域知识纳入模型结构的情况下。即使在使用Ultralytics HUB等平台(这些平台主要促进YOLOv8YOLO11 等 DL 模型的开发和部署)时,了解 HMM 等基础概念也能为更广泛的ML领域提供有价值的背景知识。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板