探索强化学习,在强化学习中,代理通过尝试和错误来优化行动,以获得最大回报。探索概念、应用和优势!
强化学习(RL)是机器学习(ML)中的一个独特领域,在这个领域中,代理通过在环境中执行动作来实现特定目标,从而学会做出决策。与其他 ML 范式不同,RL 代理不会被明确告知应采取哪些行动。相反,它们通过尝试和错误来学习,并根据自己的行动接受奖惩形式的反馈。代理的基本目标是学习一种策略,即所谓的 "策略",这种策略能使代理在一段时间内的累积奖励最大化。
了解 RL 涉及几个关键要素:
RL 过程是迭代式的。代理观察环境的当前状态,根据其当前策略选择行动,并执行该行动。环境过渡到一个新的状态,并向代理提供一个奖励信号。代理利用该奖励信号更新其策略,以期在未来获得更多奖励。这一过程的一个关键方面是探索(尝试新的行动以发现潜在的更好奖励)和利用(使用能产生高奖励的已知行动)之间的平衡。这种学习循环通常使用马尔可夫决策过程(MDP)来形式化。
RL 与其他初级 ML 范式有很大不同:
虽然深度学习(DL)技术(如使用神经网络(NN))经常被用于 RL(称为深度强化学习),以处理复杂的状态空间(如图像)和近似策略或值函数,但基于奖励的基本学习机制仍然与众不同。
RL 在各种复杂领域都取得了显著的成功:
在现实世界的许多 RL 应用中,特别是在机器人和自主系统中,计算机视觉(CV)发挥着至关重要的作用。像 Ultralytics YOLO等模型可以处理视觉输入(如摄像头馈送),提取环境的相关信息,形成 RL 代理使用的 "状态 "表示。这样,代理就能感知周围环境,并根据视觉数据做出明智决策。OpenAI Gym和专业模拟器等工具通常用于训练这些基于视觉的 RL 代理。虽然Ultralytics 模型主要侧重于通过监督学习来完成感知任务,但其输出可以作为控制物理代理或在复杂视觉环境中导航的 RL 系统的重要输入。可以使用Ultralytics HUB 等平台来管理此类复杂系统的培训和部署。
要想了解强化学习的基本概念,强烈推荐使用萨顿和巴托的《强化学习》一书中的入门章节等资源。