深圳Yolo 视觉
深圳
立即加入
词汇表

马尔可夫决策过程 (MDP)

探索马尔可夫决策过程(MDP)的基础原理。了解MDP如何驱动强化学习,Ultralytics 如何提供实时状态数据。

马尔可夫决策过程(MDP)是一种数学框架,用于建模在结果部分随机、部分受决策者控制的情境下的决策过程。它是强化学习(RL)的基础蓝图,为人工智能代理提供了一种结构化的方式,使其能够与环境交互以实现特定目标。 与依赖静态标注数据集的标准监督学习不同,MDP专注于序列决策过程——当前行动将影响未来可能性。

管理发展计划的核心组成部分

要理解多状态决策过程(MDP)的运作机制,将其视作智能体与其环境之间的交互循环有助于理解。该循环由五个关键要素构成:

  • 状态:环境的当前状况或配置。在自动驾驶车辆中,状态可能包括车辆速度、位置以及计算机视觉(CV)传感器检测到的附近障碍物。
  • 动作:智能体可执行的所有可能操作或选择的集合。这通常被称为动作空间,其可为离散型(如向左移动、向右移动)或连续型(如调整转向角度)。
  • 转移概率:该参数定义了在执行特定操作后从一种状态过渡到另一种状态的可能性。它体现了现实世界中的不确定性与动态特性,正是这一特性使马尔可夫决策过程(MDP)区别于确定性系统。
  • 奖励:每次行动后收到的数值信号。 奖励函数至关重要,因为它引导着 智能体的行为——正向奖励鼓励理想行为,而负向奖励(惩罚)则抑制错误行为。
  • 贴现因子:一个决定未来奖励相对于即时奖励重要性的数值。它帮助智能体优先考虑长期规划而非短期满足,这一概念是战略优化的核心。

实际应用

多决策过程(MDPs)作为众多先进技术背后的决策引擎,使系统能够在复杂多变的环境中自主导航。

  • 机器人控制: 在机器人领域的人工智能中,马尔可夫决策过程(MDP)使机器能够学习复杂的运动技能。例如,机械臂通过MDP确定拾取物体的最优路径并避免碰撞。其状态由关节角度和物体位置构成(基于3D物体检测),而奖励则取决于抓取成功的速度。
  • 库存管理:零售商使用多目标规划(MDP)实现库存优化。在此模型中,状态表示当前库存水平,操作为补货决策,奖励则基于利润率减去仓储成本和缺货成本计算得出。
  • 医疗治疗:在个性化医疗中,多学科团队(MDPs)协助设计动态治疗方案。通过将患者健康指标建模为状态、药物建模为行动,医生可运用预测建模技术最大化患者的长期健康结果。

与强化学习的关系

尽管密切相关,但区分马尔可夫决策过程(MDP)与强化学习(RL)至关重要。MDP是 形式化的问题陈述——环境的数学模型。 强化学习则是 在内部动态(状态转移概率)不完全已知时用于解决该问题的 方法。RL算法(如Q学习) 通过与MDP交互,在试错过程中学习最佳策略。

马尔可夫决策过程中的视觉观察

在现代人工智能应用中,多状态决策过程(MDP)的"状态"通常源自视觉数据。高速感知模型如同系统的眼睛,将原始摄像头数据转化为MDP可处理的结构化信息。例如Ultralytics 实时提供目标坐标,这些坐标作为决策代理的状态输入。

以下示例演示了如何Python从图像中提取状态表示(边界框), 该表示随后可输入到MDP策略中。

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

通过将强大的视觉模型与多状态决策框架(MDP)相结合,开发者能够构建不仅能感知世界,还能在其中做出智能、自适应决策的系统。这种协同作用对于推动自主系统 和智能制造的发展至关重要。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入