术语表

马尔可夫决策过程(MDP)

了解马尔可夫决策过程(MDP)及其在人工智能、强化学习、机器人和医疗决策中的作用。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

马尔可夫决策过程(Markov Decision Process,MDP)提供了一个数学框架,用于模拟决策场景中的决策,在这种场景中,结果部分是随机的,部分是可由决策者(通常称为代理)控制的。它是人工智能(AI)的基石概念,尤其是对强化学习(RL)领域至关重要。MDPs 允许代理通过与环境的长期互动,在试错中学习最佳行为。

管理发展计划的核心组成部分

MDP 通常由几个关键部分定义:

  • 状态 (S):代理可能处于的一系列情况或配置。例如,机器人在房间中的位置或产品的库存水平。
  • 行动 (A):代理在每个状态下的一系列选择。例如,机器人可以移动的方向或订购的产品数量。
  • 转换概率 (P):采取特定行动后从一种状态转换到另一种状态的概率。这反映了环境中的不确定性。例如,尝试向前移动可能有 90% 的成功率,但也有 10% 的失败率(停留在原地或撞上障碍物)。
  • 奖赏 (R):代理因某项行动从一种状态过渡到另一种状态后收到的数字信号。奖励表明过渡的直接可取性。我们的目标通常是使一段时间内的累积奖励最大化。
  • 策略 (π):代理的策略,决定了在每个状态下选择哪种行动。求解 MDP 的目标通常是找到一个能使预期长期回报最大化的最优策略。深度强化学习技术通常用于在复杂环境中找到这种策略。

马尔可夫特性

马尔可夫特性是 MDP 的一个决定性特征。这一假设表明,未来状态和奖励只取决于当前状态和所采取的行动,而不取决于导致当前状态的状态和行动序列。从本质上讲,当前状态包含了过去的所有相关信息,可以为未来做出最优决策。这大大简化了建模过程。更多详情可查阅维基百科的马尔可夫性质页面

实际应用

MDP 为解决现实世界中的许多连续决策问题提供了理论基础:

  • 机器人导航机器人决定如何移动以到达目标目的地,同时避开障碍物。状态是指机器人可能的位置和方向,行动是指移动指令(前进、转弯),过渡是指成功移动的概率,达到目标的奖励可以是正值,碰撞或耗时的奖励可以是负值。这也适用于像自动驾驶汽车这样的复杂系统。
  • 库存管理:为需求不确定的产品确定最佳订购政策。状态代表库存水平,行动代表订货量,过渡取决于随机的客户需求,奖励则是平衡销售收入与订货和持有成本。这对于人工智能等应用来说至关重要,可以实现更智能的零售库存管理。您可以在《运筹学》中找到探索MDP 的学术著作。
  • 玩游戏:人工智能代理学习下象棋或围棋等游戏,其中的状态是棋盘配置,行动是合法棋步,赢得游戏将获得奖励。DeepMind 在 AlphaGo 上的工作展示了 RL 在此类领域的强大功能。

人工智能和机器学习的相关性

MDP 形式化了大多数强化学习任务的问题结构。与监督学习(从标记数据中学习)或无监督学习(寻找模式)不同,强化学习侧重于通过互动和反馈(奖励)来实现长期目标,这使得 MDP 成为一个自然的框架。这种范式对于训练需要在动态环境中做出一系列决策的代理至关重要,这在计算机视觉(CV)等需要主动感知或交互的任务领域越来越重要。机器学习(ML)分支的总体目标通常是通过奖励信号优化长期准确性或任务成功率。

与其他概念的关系

虽然 MDP 与隐马尔可夫模型(HMM)等序列模型有关,但 MDP 与 HMM 不同,因为 MDP 涉及代理主动选择行动,以影响转换并使奖励最大化,而 HMM 通常模拟的是基于概率发生状态转换而代理无法控制行动的系统。求解 MDP 通常涉及动态编程(如果模型完全已知)等技术,或Q-learning和策略梯度法等 RL 算法(如果模型未知)。这些方法通常依靠贝尔曼方程(Bellman Equation)将状态值与后续状态值联系起来。OpenAI Gym(现为 Gymnasium)等工具提供了开发和测试 RL 代理的环境,通常使用以下框架实现 PyTorch.Ultralytics HUB 等平台可以帮助管理此类复杂模型的训练和模型部署,这些平台支持各种人工智能工作流,包括涉及最先进模型的工作流,如 Ultralytics YOLO.如需全面了解,请参考Sutton & Barto 的 RL 一书等资源。

阅读全部