术语表

强化学习

探索强化学习的力量:一种机器学习方法,在这种方法中,代理与环境互动以获得最大回报。了解更多!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

强化学习(RL)是机器学习的一种类型,在这种类型中,代理通过与环境的交互来学习做出一系列决策。代理在环境中采取行动,并以奖励或惩罚的形式获得反馈。其目标是让代理学习一种策略或政策,使累积奖励随着时间的推移达到最大化。这一学习过程受到行为心理学的启发,即通过尝试和错误进行学习。有监督学习依赖于标记数据,无监督学习侧重于在无标记数据中寻找模式,而强化学习则不同,它是由代理与其环境之间的交互动态驱动的。

强化学习的关键概念

有几个核心概念是理解强化学习的基础:

  • 代理:与环境互动的学习者和决策者。
  • 环境:代理与之交互的外部系统。它为代理提供状态,并接收代理的操作。
  • 状态:特定时间点的环境表征。它为代理提供采取行动所需的信息。
  • 行动:代理做出的影响环境的动作或决定。
  • 奖励:来自环境的反馈,衡量代理行动的成败。代理的目标是在一段时间内使总奖励最大化。
  • 策略:代理根据当前状态决定下一步行动的策略。它可以是确定性的,也可以是随机的。
  • 价值函数:估计处于特定状态或在特定状态下采取特定行动的预期累积奖励的函数。
  • Q 值:从给定状态出发,采取特定行动,然后遵循特定政策的预期收益。

强化学习的意义和应用

强化学习能够解决以往难以解决的复杂决策问题,因而备受关注。强化学习与各个领域都有关联,这证明了它的通用性和强大功能。例如,在自动驾驶汽车中,RL 可用于训练车辆在道路上导航、在交通中做出决策以及优化路线。在医疗保健领域,RL 算法可以根据病人的反应制定个性化治疗方案,并优化医院运营。

强化学习的真实案例

游戏:强化学习最突出的例子之一是在游戏领域。DeepMind 的人工智能 AlphaGo 在围棋比赛中击败了世界冠军,它利用强化学习掌握了围棋。同样,AlphaZero 也在国际象棋、将棋和围棋中取得了超人的成绩,展示了强化学习在掌握复杂战略游戏方面的威力。有关视频游戏中的人工智能的更多信息,请访问Ultralytics 博客。

机器人学强化学习被广泛应用于机器人学中的机器人控制、导航和操纵等任务。例如,机器人可以在奖励的引导下,通过试错学会行走、抓取物体和执行复杂任务。这在明确编程具有挑战性的情况下尤其有用。探索机器人技术中的计算机视觉集成,了解更多详情。

区分强化学习与相关术语

虽然强化学习是一种强大的技术,但必须将其与其他机器学习范式区分开来:

  • 监督学习:在监督学习中,模型是在有标签的数据集上进行训练的,每个输入的正确输出都是已知的。相比之下,强化学习则是在没有明确标签的情况下通过奖惩进行学习。详细了解监督学习
  • 无监督学习无监督学习处理无标签数据,旨在发现潜在的模式和结构。而强化学习则侧重于通过与环境的交互来学习最佳行动。了解有关无监督学习的更多信息。

强化学习的技术和工具

有几种技术和框架支持强化学习模型的开发和部署。 PyTorchTensorFlow是流行的深度学习框架,为构建和训练 RL 代理提供了工具。此外,OpenAI Gym 等环境也为训练和测试 RL 算法提供了标准化环境。Ultralytics 还提供了计算机视觉方面的前沿解决方案,可与强化学习技术相结合。例如,Ultralytics YOLO 模型可用于 RL 框架内的物体检测任务。有关部署模型的更多信息,请访问Ultralytics HUB 页面。

阅读全部