术语表

强化学习

探索强化学习,在强化学习中,代理通过试错来优化行动,以获得最大回报。探索概念、应用和优势!

强化学习(RL)是机器学习(ML)的一个领域,在这一领域中,智能代理通过试错学会做出最优决策。与其他学习范式不同的是,它不会告诉代理采取哪些行动。相反,它与环境互动,并以奖励或惩罚的形式获得反馈。代理的基本目标是学习一种策略,即所谓的 "策略",使其在一段时间内的累积奖励最大化。这种方法受到行为心理学的启发,尤其适用于解决连续决策问题,这在萨顿和巴托的奠基性著作中已有概述。

强化学习如何运作

RL 过程被模拟为一个连续的反馈回路,其中涉及几个关键部分:

  • 代理:学习者和决策者,如机器人或游戏程序。
  • 环境:代理与之互动的外部世界。
  • 状态:特定时刻的环境快照,为代理提供决策所需的信息。
  • 行动:行动: 代理人从一系列可能选项中选择的行动。
  • 奖励:每次行动后,环境会向代理发送一个数字信号,表明该行动的可取程度。

代理观察环境的当前状态,执行一项行动,然后获得奖励和下一个状态。如此循环往复,通过这些经验,代理会逐渐完善自己的策略,使其倾向于采取能带来更高长期回报的行动。这个问题的正式框架通常用马尔可夫决策过程(Markov Decision Process,MDP)来描述。流行的 RL 算法包括Q-learning和 Policy Gradients。

与其他学习范式的比较

RL 有别于其他主要类型的机器学习:

实际应用

RL 在各种复杂领域都取得了令人瞩目的成就:

  • 玩游戏RL 代理在复杂的游戏中取得了超人的表现。一个突出的例子是DeepMind 的 AlphaGo,它学会了打败世界上最好的围棋选手。另一个例子是OpenAI 在 Dota 2 上的工作,其中一个代理学会了复杂的团队策略。
  • 机器人学RL 用于训练机器人执行复杂的任务,如物体操纵、组装和运动。机器人可以通过在模拟或真实环境中的成功尝试获得奖励来学习行走或抓取物体,而不是通过明确的编程。这是伯克利人工智能研究实验室(BAIR)等机构的一个重要研究领域。
  • 资源管理:优化复杂系统的运行,如管理城市交通流量、平衡能源网负荷和优化化学反应。
  • 推荐系统RL 可用于优化向用户推荐的项目顺序,最大限度地提高用户的长期参与度和满意度,而不仅仅是即时点击。

人工智能生态系统中的相关性

强化学习(Reinforcement Learning是更广泛的人工智能(AI)领域的重要组成部分,尤其是在创建自主系统方面。虽然 Ultralytics 等公司专注于视觉人工智能模型(如Ultralytics YOLO),利用监督学习完成物体检测实例分割等任务,但这些模型的感知能力是 RL 代理的重要输入。

例如,机器人可以通过Ultralytics HUB 部署的 YOLO 感知模型来了解周围环境("状态")。然后,RL 策略利用这些信息决定下一步行动。用于感知的计算机视觉(CV)与用于决策的 RL 之间的协同作用是构建智能系统的基础。这些系统通常使用PyTorchTensorFlow等框架开发,并经常在Gymnasium(前身为 OpenAI Gym)等标准化模拟环境中进行测试。为了提高模型与人类偏好的一致性,从人类反馈中强化学习(RLHF)等技术在该领域也变得越来越重要。DeepMind等组织和NeurIPS 等学术会议不断推动着强化学习的进步。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板