术语表

强化学习

探索强化学习,在强化学习中,代理通过尝试和错误来优化行动,以获得最大回报。探索概念、应用和优势!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

强化学习(RL)是机器学习(ML)的一种,在这种学习中,智能代理通过努力使其行动获得的奖励最大化,从而学会做出一系列决策。有监督学习是从有标签的示例中学习,无监督学习是从无标签的数据中发现模式,而 RL 与之不同,它是通过与环境互动,在尝试和错误中学习。代理根据所采取的行动获得奖励或惩罚形式的反馈,从而引导其学习过程实现特定目标。

核心理念

强化学习系统由几个关键部分组成:

  • 代理:与环境互动的学习者或决策实体。
  • 环境:环境:代理运行的外部系统或世界。
  • 状态:代理人感知到的当前情况或环境配置的表示。
  • 行动代理在环境中做出的决定或行动。
  • 奖励:在执行一项行动后从环境中接收到的数字信号,表示在特定状态下该行动的好坏程度。代理的目标通常是使一段时间内的累积奖励最大化。
  • 策略:策略:代理根据当前状态决定下一步行动的策略或映射。这基本上就是代理的学习内容。
  • 价值函数:对特定状态或在特定状态下采取特定行动、遵循特定政策所能获得的预期未来回报的预测。
  • 马尔可夫决策过程(MDP)一种常用于模拟 RL 问题的数学框架,它定义了代理与环境之间的相互作用。

RL 所面临的一个基本挑战是探索与开发之间的权衡:代理必须在探索新行动以发现潜在的更高回报(探索)与选择已知能带来丰厚回报的行动(开发)之间取得平衡。

强化学习如何运作

RL 过程通常是迭代式的。代理观察环境的当前状态,根据其当前策略选择一个行动,执行该行动,并从环境中获得奖励(或惩罚)和下一个状态。这种反馈用于更新代理的策略或价值函数,从而不断改进其决策。常见的强化学习算法包括 Q-learning、SARSA 和 Policy Gradient 方法,每种算法都采用不同的策略来学习和更新策略。深度强化学习(DRL)将 RL 与深度学习技术相结合,使用神经网络(NN)来逼近策略或价值函数,从而使 RL 能够解决图像或传感器数据等复杂的高维状态空间问题。

与其他学习范式的比较

RL 与其他 ML 范式有很大不同:

  • 监督学习通过包含标注示例(输入-输出对)的数据集进行学习。目标是学习一个映射函数,该函数可预测新输入的输出。例子包括图像分类和回归。RL 从互动和反馈(奖励)中学习,而不是从预定义的正确答案中学习。
  • 无监督学习从无标签数据中学习模式和结构。例如聚类降维。RL 以目标为导向,通过学习策略来实现回报最大化,而无监督学习则侧重于数据结构的发现。

实际应用

RL 在各个领域都取得了突破性进展:

人工智能生态系统中的相关性

强化学习(Reinforcement Learning人工智能(AI)领域的重要组成部分,尤其是在创建能够进行复杂决策的自主系统方面。虽然Ultralytics 等公司专注于视觉人工智能模型,如 Ultralytics YOLO之类的视觉人工智能模型,但这些模型提供的感知能力往往是 RL 代理基本输入(状态)。例如,机器人可能会使用通过Ultralytics HUB部署的物体检测模型来了解周围环境,然后再由 RL 策略决定下一步行动。了解 RL 为高级感知如何融入智能自主系统的构建提供了背景。 PyTorch等框架开发,并在Gymnasium(前身为 OpenAI Gym)等模拟环境中进行测试。现实世界中的许多应用都涉及将感知(计算机视觉)与决策(RL)相结合。

阅读全部