深圳Yolo 视觉
深圳
立即加入
词汇表

人类反馈强化学习 (RLHF)

了解基于人类反馈的强化学习(RLHF)如何使人工智能与人类价值观保持一致。探索其核心组件及其Ultralytics 集成。

基于人类反馈的强化学习(RLHF)是一种先进的机器学习技术,通过将人类直接输入纳入训练循环来优化人工智能模型。与仅依赖静态标注数据集的标准监督学习不同,RLHF引入了动态反馈机制——由人类评估者对模型输出进行排序或评分。 该过程使AI能够捕捉复杂、主观或微妙的目标——例如"实用性"、"安全性"或"创造力"——这些目标难以用简单的数学损失函数定义。RLHF已成为现代大型语言模型(LLMs)和生成式AI开发的基础,确保强大的基础模型能有效契合人类价值观和用户意图。

RLHF的核心组件

RLHF流程通常遵循三步管道设计,旨在弥合原始预测能力与符合人类期望的行为之间的差距。

  1. 监督式微调(SFT):工作流通常以预训练的基础模型为起点。开发者使用较小规模的高质量示范数据集(例如专家撰写的问答对)进行初始微调。此步骤建立基准策略,使模型掌握任务所需的通用格式与语体规范。
  2. 奖励模型训练:此阶段是RLHF的独特之处。人类标注员会审查模型针对同一输入生成的多个输出结果,并按优劣顺序进行排序。这项数据标注工作将生成一个偏好数据集。随后,基于该比较数据训练一个独立的神经网络(称为奖励模型),以预测反映人类判断的标量评分。Ultralytics 提供的工具可简化此类标注工作流的管理。
  3. 强化学习优化:最终,原始模型作为强化学习环境中的AI代理运行。 在奖励模型的引导下,近似策略优化(PPO)等优化算法会调整模型参数以最大化预期奖励。此步骤使模型策略与学习到的人类偏好保持一致,既鼓励有益且安全的行为,又抑制有害或荒谬的输出。

实际应用

RLHF在部署人工智能系统时发挥了关键作用,这些系统需要高安全标准以及对人类互动的细致理解。

  • 对话式人工智能与聊天机器人:RLHF最突出的应用在于引导聊天机器人保持有益、无害且诚实的特性。通过惩罚存在偏见、事实错误或危险倾向的输出结果,RLHF能有效缓解大型语言模型的幻觉问题,降低算法偏见的风险。这确保虚拟助手在拒绝有害指令的同时,仍能为正当查询提供有效服务。
  • 机器人学与物理控制:RLHF不仅适用于文本领域,更可拓展至机器人学的人工智能领域。在该领域,为复杂物理任务定义完美的奖励函数极具挑战性。例如,当机器人学习在拥挤仓库中导航时,可通过人类监督者反馈哪些轨迹安全、哪些会引发干扰。这种反馈机制比仅基于目标完成的简单深度强化学习更能有效优化机器人的控制策略。

RLHF 与标准强化学习对比

区分RLHF与传统强化学习(RL)有助于理解其特定用途。

  • 标准RL:在传统场景中,奖励函数通常由环境硬编码设定。 例如在电子游戏中,环境会提供明确信号(获胜+1,失败-1)。智能体 在此定义的马尔可夫决策过程(MDP)框架内优化其行为。
  • RLHF:在许多现实场景中,例如创作故事或礼貌驾驶, "成功"具有主观性。RLHF通过用基于人类偏好的学习型奖励模型 替代硬编码奖励来解决此问题。这使得能够优化"质量"或"恰当性"等抽象概念, 这些概念无法通过显式编程实现。

感知与反馈回路的整合

在视觉应用中,RLHF对齐的智能体通常依赖计算机视觉(CV)来感知环境状态后再采取行动。一个健壮的检测器(如YOLO26)作为感知层,提供结构化观测结果(例如"在3米处检测到障碍物"),策略网络据此选择行动方案。

以下Python 展示了一个简化概念:YOLO 提供环境状态。在完整的强化学习反馈循环中,"奖励"信号将来自基于该检测数据对智能体决策进行人类反馈训练的模型。

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

通过将强大的感知模型与经人类反馈优化策略相结合,开发者能够构建出既具备智能又严格遵循人工智能安全原则的系统。当前针对可扩展监督机制(如宪法式人工智能)的持续研究正不断推动该领域发展,旨在缓解大规模人工标注的瓶颈问题,同时保持模型的高性能表现。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入