术语表

马尔可夫决策过程（MDP）

了解马尔可夫决策过程（MDP）及其在人工智能、强化学习、机器人和医疗决策中的作用。

马尔可夫决策过程（Markov Decision Process，MDP）是一个数学框架，用于模拟在结果部分随机、部分受决策者（通常称为代理）控制的情况下的决策。它是人工智能（AI）的基石概念，尤其是在强化学习（RL）领域。MDP 提供了一种描述问题的正式方法，在这种方法中，代理会随着时间的推移与环境发生交互，学会做出一系列决策以实现特定目标，通常是最大化累积奖励。这个框架对于理解代理如何在复杂、不确定的环境中学习最优行为至关重要。

管理发展计划的主要组成部分

MDP 通常由几个关键部分定义：

状态 (S)：代理可能处于的一系列情况或配置。例如，在机器人导航任务中，状态可以代表机器人在网格中的位置。
行动 (A)：代理人在每种状态下的一系列选择。具体的行动可能取决于当前的状态。对于机器人来说，行动可以是 "向北移动"、"向南移动"、"向东移动"、"向西移动"。
转换概率 (P)：定义在采取特定行动（a）后从一种状态（s）转换到另一种状态（s'）的概率。这反映了环境中的不确定性；一个动作不一定总能带来预期的结果。例如，一个试图向北移动的机器人可能会有很小的几率滑倒，停留在原地或稍微偏离航线。
奖励 (R)：代理因行动 (a) 从状态 (s) 过渡到状态 (s') 后获得的数值。奖励表明特定转换或状态的好坏。我们的目标通常是最大化一段时间内累积的总奖励。到达目标地点可能会获得大量正奖励，而撞上障碍物则可能产生负奖励。
折扣系数 (γ)：一个介于 0 和 1 之间的数值，决定了未来回报与眼前回报相比的重要性。贴现率越低，短期收益越重要，而贴现率越高，长期成功越重要。

MDP 的一个重要方面是 马尔可夫特性即未来状态和奖励只取决于当前状态和行动，而不取决于导致当前状态的状态和行动序列。

MDP 如何在人工智能和机器学习中发挥作用

在机器学习（ML）中，MDP 是大多数强化学习算法的基础。MDP 的目标是找到一个最优策略(π)，它是一种策略或规则，告诉代理在每个状态下采取哪种行动，以最大化其预期累积贴现奖励。

Q-learning、SARSA 和策略梯度法等算法旨在求解 MDP，通常不需要明确了解过渡概率或奖励函数，而是通过与环境的交互来学习它们。这种交互循环包括：代理观察当前状态，根据其策略选择行动，获得奖励，并根据环境动态过渡到新状态。这一过程不断重复，使代理能够逐步完善其策略。这种学习模式与监督学习（从有标签的数据中学习）和无监督学习（从无标签的数据中寻找模式）有很大不同。

实际应用

MDP 和用于求解 MDP 的 RL 技术有许多实际应用：

机器人训练机器人执行复杂任务，如在未知地形中导航、操纵物体或流水线作业。机器人在处理物理不确定性的同时，学习实现目标的最佳行动顺序。了解计算机视觉如何与机器人技术相结合。
自主系统：优化自动驾驶汽车的行为，例如决定何时变更车道或如何安全高效地通过交叉路口（自动驾驶汽车中的人工智能）。
金融：开发算法交易策略，让代理根据市场状态学习最佳买卖策略，或优化投资组合（AI in Finance 博客）。
资源管理：优化库存控制、智能电网能源分配（能源博客中的人工智能）或无线网络动态信道分配等领域的决策。
玩游戏：训练人工智能代理以超人的水平玩复杂的棋盘游戏（如围棋或国际象棋）或视频游戏，如DeepMind 的 AlphaGo。

与其他概念的关系

将 MDP 与相关概念区分开来是很有用的：

强化学习（RL）：强化学习（RL）是机器学习的一个领域，它关注的是代理如何通过尝试和错误来学习最佳行为。MDP 提供了正式的数学框架，定义了 RL 算法要解决的问题。深度强化学习将 RL 与深度学习 (DL)结合起来，以处理复杂的高维状态空间。
隐马尔可夫模型（HMM）：HMM 是一种统计模型，当被建模的系统被假定为具有未观测（隐藏）状态的马尔可夫过程时，就会使用 HMM。与 MDP 不同，HMM 主要侧重于从观测结果中推断隐藏状态，通常不涉及行动或决策奖励。
动态编程：值迭代和策略迭代等技术都是基于动态编程原理，如果模型（过渡和奖励）已知，这些技术就能解决 MDP 问题。

开发基于 MDP 的解决方案通常需要使用基于以下框架构建的RL 库 PyTorch或 TensorFlow.管理实验和模型训练可能需要使用Ultralytics HUB等平台，以简化人工智能项目的工作流程。有效的模型评估对于评估所学策略的性能至关重要。

马尔可夫决策过程（MDP）

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

管理发展计划的主要组成部分

MDP 如何在人工智能和机器学习中发挥作用

实际应用

与其他概念的关系

阅读更多博客

加入Ultralytics 社区