术语表

强化学习

探索强化学习，在强化学习中，代理通过试错来优化行动，以获得最大回报。探索概念、应用和优势！

强化学习（RL）是机器学习（ML）的一个领域，在这一领域中，智能代理通过试错学会做出最优决策。与其他学习范式不同的是，它不会告诉代理采取哪些行动。相反，它与环境互动，并以奖励或惩罚的形式获得反馈。代理的基本目标是学习一种策略，即所谓的 "策略"，使其在一段时间内的累积奖励最大化。这种方法受到行为心理学的启发，尤其适用于解决连续决策问题，这在萨顿和巴托的奠基性著作中已有概述。

强化学习如何运作

RL 过程被模拟为一个连续的反馈回路，其中涉及几个关键部分：

代理：学习者和决策者，如机器人或游戏程序。
环境：代理与之互动的外部世界。
状态：特定时刻的环境快照，为代理提供决策所需的信息。
行动：行动：代理人从一系列可能选项中选择的行动。
奖励：每次行动后，环境会向代理发送一个数字信号，表明该行动的可取程度。

代理观察环境的当前状态，执行一项行动，然后获得奖励和下一个状态。如此循环往复，通过这些经验，代理会逐渐完善自己的策略，使其倾向于采取能带来更高长期回报的行动。这个问题的正式框架通常用马尔可夫决策过程（Markov Decision Process，MDP）来描述。流行的 RL 算法包括Q-learning和 Policy Gradients。

与其他学习范式的比较

RL 有别于其他主要类型的机器学习：

监督学习：在监督学习中，模型从完全标有正确答案的数据集中学习。例如，图像分类模型就是在带有明确标签的图像上进行训练的。与此相反，RL 从奖励信号中学习，而不对每一步的最佳操作进行明确监督。您可以查看监督学习和无监督学习的详细比较。
无监督学习：这种模式涉及在无标签数据中寻找隐藏的模式或结构。它的目标是数据探索，比如使用K 均值聚类，而不是为了最大化奖励而做出决策。
深度强化学习（DRL）： 深度强化学习（DRL）不是一种不同的范式，而是一种先进的强化学习形式，它使用深度神经网络来处理复杂的高维状态和行动空间。这使得 RL 能够扩展到以前被认为难以解决的问题，例如处理自动驾驶汽车摄像头的原始像素数据。

实际应用

RL 在各种复杂领域都取得了令人瞩目的成就：

玩游戏：RL 代理在复杂的游戏中取得了超人的表现。一个突出的例子是DeepMind 的 AlphaGo，它学会了打败世界上最好的围棋选手。另一个例子是OpenAI 在 Dota 2 上的工作，其中一个代理学会了复杂的团队策略。
机器人学：RL 用于训练机器人执行复杂的任务，如物体操纵、组装和运动。机器人可以通过在模拟或真实环境中的成功尝试获得奖励来学习行走或抓取物体，而不是通过明确的编程。这是伯克利人工智能研究实验室（BAIR）等机构的一个重要研究领域。
资源管理：优化复杂系统的运行，如管理城市交通流量、平衡能源网负荷和优化化学反应。
推荐系统：RL 可用于优化向用户推荐的项目顺序，最大限度地提高用户的长期参与度和满意度，而不仅仅是即时点击。

人工智能生态系统中的相关性

强化学习（Reinforcement Learning）是更广泛的人工智能（AI）领域的重要组成部分，尤其是在创建自主系统方面。虽然 Ultralytics 等公司专注于视觉人工智能模型（如Ultralytics YOLO），利用监督学习完成物体检测和实例分割等任务，但这些模型的感知能力是 RL 代理的重要输入。

例如，机器人可以通过Ultralytics HUB 部署的 YOLO 感知模型来了解周围环境（"状态"）。然后，RL 策略利用这些信息决定下一步行动。用于感知的计算机视觉（CV）与用于决策的 RL 之间的协同作用是构建智能系统的基础。这些系统通常使用PyTorch和TensorFlow等框架开发，并经常在Gymnasium（前身为 OpenAI Gym）等标准化模拟环境中进行测试。为了提高模型与人类偏好的一致性，从人类反馈中强化学习（RLHF）等技术在该领域也变得越来越重要。DeepMind等组织和NeurIPS 等学术会议不断推动着强化学习的进步。

强化学习

灵活的企业许可解决方案为您的创新提供动力

使用 Ultralytics YOLO 在数秒内训练人工智能模型

使用 Ultralytics HUB 简单训练 YOLO 模型

强化学习如何运作

与其他学习范式的比较

实际应用

人工智能生态系统中的相关性

在此类别中阅读更多内容

了解快速成型制造：技术和使用案例

使用 Ultralytics YOLO 监测机场地面运行11

机器人技术在制造业中的发展与未来

加入 Ultralytics 社区