探索强化学习,在强化学习中,代理通过试错来优化行动,以获得最大回报。探索概念、应用和优势!
强化学习(RL)是机器学习(ML)的一个领域,在这一领域中,智能代理通过试错学会做出最优决策。与其他学习范式不同的是,它不会告诉代理采取哪些行动。相反,它与环境互动,并以奖励或惩罚的形式获得反馈。代理的基本目标是学习一种策略,即所谓的 "策略",使其在一段时间内的累积奖励最大化。这种方法受到行为心理学的启发,尤其适用于解决连续决策问题,这在萨顿和巴托的奠基性著作中已有概述。
RL 过程被模拟为一个连续的反馈回路,其中涉及几个关键部分:
代理观察环境的当前状态,执行一项行动,然后获得奖励和下一个状态。如此循环往复,通过这些经验,代理会逐渐完善自己的策略,使其倾向于采取能带来更高长期回报的行动。这个问题的正式框架通常用马尔可夫决策过程(Markov Decision Process,MDP)来描述。流行的 RL 算法包括Q-learning和 Policy Gradients。
RL 有别于其他主要类型的机器学习:
RL 在各种复杂领域都取得了令人瞩目的成就:
强化学习(Reinforcement Learning)是更广泛的人工智能(AI)领域的重要组成部分,尤其是在创建自主系统方面。虽然 Ultralytics 等公司专注于视觉人工智能模型(如Ultralytics YOLO),利用监督学习完成物体检测和实例分割等任务,但这些模型的感知能力是 RL 代理的重要输入。
例如,机器人可以通过Ultralytics HUB 部署的 YOLO 感知模型来了解周围环境("状态")。然后,RL 策略利用这些信息决定下一步行动。用于感知的计算机视觉(CV)与用于决策的 RL 之间的协同作用是构建智能系统的基础。这些系统通常使用PyTorch和TensorFlow等框架开发,并经常在Gymnasium(前身为 OpenAI Gym)等标准化模拟环境中进行测试。为了提高模型与人类偏好的一致性,从人类反馈中强化学习(RLHF)等技术在该领域也变得越来越重要。DeepMind等组织和NeurIPS 等学术会议不断推动着强化学习的进步。