隐马尔可夫模型(HMM)是一种统计模型,用于描述随时间在不同状态间转换的系统,其中状态序列不可直接观测(是 "隐藏 "的),但可从可观测的输出或排放序列中推断。在人工智能(AI)和机器学习(ML)的各个领域中,HMM 对于序列数据和时间序列的建模尤为强大。它们属于一类被称为概率图形模型的模型。
核心理念
HMM 由两个主要部分定义:
- 隐藏状态:系统可能处于的一组无法观测的状态。进程根据一定的概率在这些状态之间转换。其核心假设是马尔可夫特性:过渡到下一状态的概率只取决于当前状态,而不取决于之前的状态序列。
- 观测(发射):一组可观测的输出或符号,由每个隐藏状态以概率方式生成或 "发射"。发射特定观测值的概率仅取决于当前的隐藏状态。
该模型的特点是
- 转换概率:从一个隐藏状态转移到另一个隐藏状态的可能性。
- 发射概率:系统处于特定隐藏状态时观察到特定输出的可能性。
- 初始状态概率:系统从每个隐藏状态开始的可能性。
隐马尔可夫模型的工作原理
使用 HMM 通常需要解决三个基本问题,通常由 [拉比纳等人的教程](https://web.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/tutorial on hmm and applications.pdf)中详细介绍的特定算法来解决:
- 可能性:根据模型参数计算观测序列的概率。这有助于评估模型与数据的拟合程度。
- 解码:找到产生给定观测序列的最可能的隐藏状态序列(通常使用维特比算法)。
- 学习:从一组观测序列中估算模型参数(过渡概率、发射概率和初始概率)(通常使用鲍姆-韦尔奇算法,一种期望最大化算法)。
实际应用
HMM 已成功应用于多个领域:
- 语音识别:隐藏状态可代表音素(声音的基本单位),而观测值则是从语音信号中提取的声学特征。HMM 模拟音素如何转换和产生声音,使CMU Sphinx等系统能够将口语转换成文本。这是自然语言处理(NLP)中的一个经典应用。了解有关语音识别的更多信息。
- 生物信息学(基因查找):隐藏状态可代表 DNA 的功能区(如编码外显子、非编码内含子),观测值则是 DNA 碱基对(A、C、G、T)。HMM 可以帮助识别长 DNA 序列中的基因结构,HMMER等工具可以利用HMMMM,并为NCBI 基因数据库等资源做出贡献。这与医学图像分析中更广泛的应用有关,其中模式识别是关键。
其他应用包括 NLP 中的语音部分标记、计算机视觉中的手势识别和金融时间序列分析。
与相关概念的比较
必须将 HMM 与其他序列模型区分开来:
- 马尔可夫决策过程(MDP):虽然两者都涉及状态和转换,但 HMM 专注于从观测结果中推断隐藏状态。相比之下,MDP在强化学习 (RL)中用于模拟决策过程,其中的状态通常是可观测的,目标是找到最优策略(行动序列)。从DeepMind 入门材料等资源中了解更多有关 RL的基本知识。
- 递归神经网络(RNN):HMM 和RNN(包括LSTM 等变体)都是顺序数据模型。不过,HMM 是概率模型,具有基于预定义结构的明确、可解释的状态和转换。RNNs 是深度学习(DL)的一部分,通过网络连接学习隐式状态表示,通常对复杂模式的处理能力更强,但可解释性较差。了解 LSTM可以深入了解 RNN 的机制。模型如 Ultralytics YOLO等模型利用 DL 完成物体跟踪等任务,这些任务也涉及序列,但使用的底层技术不同。
虽然较新的深度学习方法通常能获得最先进的结果,但 HMMs 因其可解释性和有效性而仍然很有价值,尤其是在数据有限或可将领域知识纳入模型结构的情况下。Ultralytics HUB等工具和平台通常侧重于 DL 模型,但了解 HMM 等基础概念可为更广泛的 ML 领域提供有价值的背景。