术语表

强化学习

探索强化学习,在强化学习中,代理通过尝试和错误来优化行动,以获得最大回报。探索概念、应用和优势!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

强化学习(RL)是机器学习(ML)中的一个独特领域,在这个领域中,代理通过在环境中执行动作来实现特定目标,从而学会做出决策。与其他 ML 范式不同,RL 代理不会被明确告知应采取哪些行动。相反,它们通过尝试和错误来学习,并根据自己的行动接受奖惩形式的反馈。代理的基本目标是学习一种策略,即所谓的 "策略",这种策略能使代理在一段时间内的累积奖励最大化。

强化学习的核心概念

了解 RL 涉及几个关键要素:

  • 代理:与环境互动的学习者或决策者。
  • 环境:环境:与代理互动的外部世界或系统。它为代理提供反馈。
  • 状态:当前情况或环境配置的表示。在计算机视觉(CV)应用中,状态可能来自图像数据。
  • 行动代理做出的影响环境状态的动作或决定。
  • 奖励:来自环境的数字反馈信号,表明代理上次行动与目标之间的好坏程度。
  • 策略:策略:代理根据当前状态决定下一步行动的策略或映射。RL 的目标是找到最优策略。

强化学习如何运作

RL 过程是迭代式的。代理观察环境的当前状态,根据其当前策略选择行动,并执行该行动。环境过渡到一个新的状态,并向代理提供一个奖励信号。代理利用该奖励信号更新其策略,以期在未来获得更多奖励。这一过程的一个关键方面是探索(尝试新的行动以发现潜在的更好奖励)和利用(使用能产生高奖励的已知行动)之间的平衡。这种学习循环通常使用马尔可夫决策过程(MDP)来形式化。

与其他机器学习类型的比较

RL 与其他初级 ML 范式有很大不同:

  • 监督学习从有标签的数据集中学习,每个输入都有正确的输出。RL 从奖励信号中学习,没有明确的正确动作标签。
  • 无监督学习在无标签数据中寻找模式和结构。RL 侧重于通过互动和反馈进行目标导向学习。

虽然深度学习(DL)技术(如使用神经网络(NN))经常被用于 RL(称为深度强化学习),以处理复杂的状态空间(如图像)和近似策略或值函数,但基于奖励的基本学习机制仍然与众不同。

实际应用

RL 在各种复杂领域都取得了显著的成功:

  1. 玩游戏:RL 代理已在围棋DeepMind的 AlphaGo)和各种视频游戏(Dota 2 中的 OpenAI Five)等复杂游戏中取得了超人的表现。这些代理通过自我游戏学习复杂的策略,远远超过了人类的能力。视频游戏中的人工智能》一书对这种能力进行了探讨。
  2. 机器人学RL 用于训练机器人执行运动、物体操纵和装配等任务。机器人可以在模拟环境中学习复杂的运动技能,也可以直接通过现实世界中的互动来适应不可预见的情况。您可以了解有关 "了解机器人集成"的更多信息。
  3. 自动驾驶汽车RL 算法可用于优化驾驶策略,例如变道、并线或在交叉路口导航的决策,从而推动人工智能在自动驾驶汽车中的应用。
  4. 推荐系统:RL 可以根据长期的互动和反馈学习用户偏好,动态适应不断变化的口味,从而实现个性化推荐。了解有关推荐系统的更多信息

强化学习和计算机视觉

在现实世界的许多 RL 应用中,特别是在机器人和自主系统中,计算机视觉(CV)发挥着至关重要的作用。像 Ultralytics YOLO等模型可以处理视觉输入(如摄像头馈送),提取环境的相关信息,形成 RL 代理使用的 "状态 "表示。这样,代理就能感知周围环境,并根据视觉数据做出明智决策。OpenAI Gym和专业模拟器等工具通常用于训练这些基于视觉的 RL 代理。虽然Ultralytics 模型主要侧重于通过监督学习来完成感知任务,但其输出可以作为控制物理代理或在复杂视觉环境中导航的 RL 系统的重要输入。可以使用Ultralytics HUB 等平台来管理此类复杂系统的培训和部署。

要想了解强化学习的基本概念,强烈推荐使用萨顿和巴托的《强化学习》一书中的入门章节等资源。

阅读全部