术语表

马尔可夫决策过程(MDP)

了解马尔可夫决策过程(MDP)及其在人工智能、强化学习、机器人和医疗决策中的作用。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

马尔可夫决策过程(Markov Decision Process,简称 MDP)是一个数学框架,用于在结果部分随机、部分受决策者控制的情况下建立决策模型。它是人工智能和机器学习,尤其是强化学习领域的一个重要概念,为解决复杂的连续决策问题提供了一种结构化方法。MDPs 用于将代理与环境交互的问题形式化,目的是选择能使累积奖励最大化的行动。

定义

马尔可夫决策过程(Markov Decision Process,MDP)由一组状态、一组行动、转换概率和奖励函数定义。从形式上看,MDP 是一种离散时间随机控制过程。它提供了一个数学框架,用于在结果部分随机、部分受决策者控制的情况下建立决策模型。您可以在维基百科的马尔可夫决策过程页面等资源中找到更深入的数学解释。马尔可夫 "特性是关键:未来状态只取决于当前状态和行动,而不取决于之前的状态或行动历史。这种 "无记忆 "特性简化了问题,同时还能捕捉到现实世界中的许多场景。

管理发展计划的主要组成部分

  • 状态:这些状态代表了代理可能处于的情况或配置。例如,在自动驾驶汽车场景中,状态可能包括汽车的当前位置、速度和周围的交通状况。在机器人流程自动化(RPA)中,状态可能是工作流程的当前阶段。
  • 行动:这些是代理在每个状态下可以做出的选择。继续以自动驾驶汽车为例,行动可以是加速、减速、左转或右转。对于聊天机器人来说,操作可能是对用户输入的不同回复。
  • 过渡概率:对于每一对状态-行动,这些概率定义了过渡到每一种可能的下一状态的可能性。由于 MDP 涉及随机性,在某一状态下采取的行动并不能保证特定的结果;相反,它会导致可能的下一状态的概率分布。
  • 奖励函数:这些函数量化了代理在过渡到新状态后获得的直接奖励。奖励可以是正的(理想的),也可以是负的(不理想的,通常称为成本或惩罚)。例如,在游戏中,获胜可能会获得大量正奖励,而失败则可能会获得负奖励。在模型的超参数调整中,奖励可能与模型在验证集上的性能指标有关。

相关性和应用

MDP 是强化学习(RL)的基础,强化学习的目标是训练代理在环境中做出最优决策,以最大化累积奖励。Q-learning 和 SARSA 等 RL 算法都建立在 MDP 框架之上。MDP 尤其适用于以下情况:

  • 决策是有先后顺序的:现在采取的行动会影响未来的状态和回报。
  • 不确定性是与生俱来的:行动的结果并不总是可以预测的。
  • 目标可以用奖励来定义:目标是最大限度地提高某种累积的成功率。

MDP 在现实世界中的应用包括

  • 机器人学在机器人学中,MDP 可用于规划机器人的运动、导航和操纵任务。例如,MDP 可以帮助机器人学习如何高效地在仓库中导航,避开障碍物并到达目标位置,这与制造物流领域息息相关。
  • 医疗保健:MDP 可以模拟临床决策,例如为患者确定最佳治疗策略。它们有助于根据患者状态制定个性化治疗方案并预测治疗结果,从而改善医疗保健领域的人工智能。例如,MDP 可用于优化药物的长期剂量调整。

相关概念

  • 强化学习(RL):强化学习(RL)是机器学习的一个子领域,侧重于训练代理做出一系列决策。MDP 为许多 RL 算法提供了理论基础。当过渡概率和奖励函数未知或复杂时,RL 技术通常用于解决 MDP。
阅读全部