术语表

马尔可夫决策过程(MDP)

了解马尔可夫决策过程(MDP)及其在人工智能、强化学习、机器人和医疗决策中的作用。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

马尔可夫决策过程(Markov Decision Process,MDP)是一个数学框架,用于模拟在结果部分随机、部分受决策者(通常称为代理)控制的情况下的决策。它是人工智能(AI)的基石概念,尤其是在强化学习(RL)领域。MDP 提供了一种描述问题的正式方法,在这种方法中,代理会随着时间的推移与环境发生交互,学会做出一系列决策以实现特定目标,通常是最大化累积奖励。这个框架对于理解代理如何在复杂、不确定的环境中学习最优行为至关重要。

管理发展计划的主要组成部分

MDP 通常由几个关键部分定义:

  • 状态 (S):代理可能处于的一系列情况或配置。例如,在机器人导航任务中,状态可以代表机器人在网格中的位置。
  • 行动 (A):代理人在每种状态下的一系列选择。具体的行动可能取决于当前的状态。对于机器人来说,行动可以是 "向北移动"、"向南移动"、"向东移动"、"向西移动"。
  • 转换概率 (P):定义在采取特定行动(a)后从一种状态(s)转换到另一种状态(s')的概率。这反映了环境中的不确定性;一个动作不一定总能带来预期的结果。例如,一个试图向北移动的机器人可能会有很小的几率滑倒,停留在原地或稍微偏离航线。
  • 奖励 (R):代理因行动 (a) 从状态 (s) 过渡到状态 (s') 后获得的数值。奖励表明特定转换或状态的好坏。我们的目标通常是最大化一段时间内累积的总奖励。到达目标地点可能会获得大量正奖励,而撞上障碍物则可能产生负奖励。
  • 折扣系数 (γ):一个介于 0 和 1 之间的数值,决定了未来回报与眼前回报相比的重要性。贴现率越低,短期收益越重要,而贴现率越高,长期成功越重要。

MDP 的一个重要方面是 马尔可夫特性即未来状态和奖励只取决于当前状态和行动,而不取决于导致当前状态的状态和行动序列。

MDP 如何在人工智能和机器学习中发挥作用

机器学习(ML)中,MDP 是大多数强化学习算法的基础。MDP 的目标是找到一个最优策略(π),它是一种策略或规则,告诉代理在每个状态下采取哪种行动,以最大化其预期累积贴现奖励。

Q-learning、SARSA 和策略梯度法等算法旨在求解 MDP,通常不需要明确了解过渡概率或奖励函数,而是通过与环境的交互来学习它们。这种交互循环包括:代理观察当前状态,根据其策略选择行动,获得奖励,并根据环境动态过渡到新状态。这一过程不断重复,使代理能够逐步完善其策略。这种学习模式与监督学习(从有标签的数据中学习)和无监督学习(从无标签的数据中寻找模式)有很大不同。

实际应用

MDP 和用于求解 MDP 的 RL 技术有许多实际应用:

与其他概念的关系

将 MDP 与相关概念区分开来是很有用的:

  • 强化学习(RL)强化学习(RL)是机器学习的一个领域,它关注的是代理如何通过尝试和错误来学习最佳行为。MDP 提供了正式的数学框架,定义了 RL 算法要解决的问题。深度强化学习将 RL 与深度学习 (DL)结合起来,以处理复杂的高维状态空间。
  • 隐马尔可夫模型(HMM)HMM 是一种统计模型,当被建模的系统被假定为具有未观测(隐藏)状态的马尔可夫过程时,就会使用 HMM。与 MDP 不同,HMM 主要侧重于从观测结果中推断隐藏状态,通常不涉及行动或决策奖励。
  • 动态编程值迭代和策略迭代等技术都是基于动态编程原理,如果模型(过渡和奖励)已知,这些技术就能解决 MDP 问题。

开发基于 MDP 的解决方案通常需要使用基于以下框架构建的RL 库PyTorchTensorFlow.管理实验和模型训练可能需要使用Ultralytics HUB等平台,以简化人工智能项目的工作流程。有效的模型评估对于评估所学策略的性能至关重要。

阅读全部