术语表

强化学习

探索强化学习:利用机器人、游戏和工业中的强化学习概念和应用,用自主决策改造人工智能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

强化学习(RL)是机器学习的一个子领域,在该领域中,代理通过在环境中执行动作来实现特定目标,从而学会做出决策。与监督学习不同的是,强化学习的模型是通过标注的数据集来学习的,而监督学习则依靠奖惩系统来引导代理实现最佳行为。

强化学习如何运作

在强化学习中,代理以离散的时间步骤与环境互动。在每一步中,代理都会收到奖励形式的反馈,奖励是一个数值。目标是在一段时间内使累积奖励最大化。代理根据策略选择行动,策略可以是确定的,也可以是随机的。随着时间的推移,该策略会随着代理从其行动的后果中学习而得到改进。

记录和档案管理系统的关键要素包括

  • 代理人:学习者或决策者。
  • 环境:代理与之互动的一切。
  • 行动:特工可能采取的所有行动。
  • 奖励:环境反馈:对行动进行评估。
  • 状态:状态:环境现状的表征。
  • 策略:代理根据当前状态决定行动的策略。

重要的 RL 概念

  • 价值函数:估算给定状态或状态-行动对的预期累积奖励。
  • Q 学习:一种流行的 RL 算法,即代理直接学习行动的价值。
  • 探索与利用:在探索新战略和利用已知成功战略之间取得平衡。
  • 时差学习:结合了蒙特卡罗方法和动态编程的思想。

区分 RL 与相关术语

强化学习不同于监督学习,监督学习是指模型从输入-输出对中学习。相反,强化学习强调从与环境的互动中学习。它也不同于无监督学习,因为奖励反馈没有明确的标签。

强化学习的应用

自动驾驶汽车

强化学习对于开发自动驾驶汽车的人工智能至关重要。强化学习算法有助于这些车辆在实际测试前通过模拟环境学习最佳驾驶策略。

机器人

RL 使机器人能够通过反复试验来学习复杂的任务。例如,仓库中的机器人可以通过强化学习学会处理各种物品,从而提高效率和准确性。

玩游戏

正如DeepMind 的 AlphaGo 所展示的那样,RL 已在游戏中得到了著名的应用,在游戏中,代理可以学习并掌握围棋和国际象棋等游戏。

工商业中的 RL

强化学习可以优化库存管理和物流等业务。在 Ultralytics基于 RL 的系统有助于做出数据驱动的决策,从而提高供应链的效率和成本效益。

进一步探索的资源

强化学习是开发能够自主决策的智能系统的有效方法,是人工智能和机器学习进步的基石。

阅读全部