绿色检查
链接复制到剪贴板

人工智能宪法旨在使人工智能模型符合人类价值观

了解宪法人工智能如何帮助模型遵循道德规则,做出更安全的决策,并支持语言和计算机视觉系统的公平性。

人工智能(AI)正迅速成为我们日常生活的重要组成部分。它被整合到医疗保健、招聘、金融和公共安全等领域的工具中。随着这些系统的扩展,人们对其道德和可靠性的担忧也随之而来。

例如,有时在不考虑公平性或安全性的情况下建立的人工智能系统会产生有偏见或不可靠的结果。这是因为许多模型仍然没有明确的方法来反映和符合人类的价值观。

为了应对这些挑战,研究人员正在探索一种被称为 "宪法人工智能"的方法。简单地说,它在模型的训练过程中引入了一套书面原则。这些原则有助于模型判断自己的行为,减少对人类反馈的依赖,并使反应更安全、更易于理解。

迄今为止,这种方法主要用于大型语言模型(LLM)。不过,同样的结构也能帮助指导计算机视觉系统在分析视觉数据时做出合乎道德的决定。 

在本文中,我们将探讨宪法人工智能是如何工作的,看看现实生活中的例子,并讨论其在计算机视觉系统中的潜在应用。

__wf_保留继承
图 1.人工智能宪法的特点。图片由作者提供。

什么是人工智能宪法?

人工智能宪法是一种模型训练方法,它通过提供一套明确的道德规则来指导人工智能模型的行为。这些规则就像行为准则。在训练过程中,模型不再依赖于推断什么是可接受的,而是遵循一套书面原则来塑造自己的反应。

这一概念是由 Anthropic提出的,这是一家以人工智能安全为重点的研究公司,它开发了克劳德 LLM 系列,作为一种让人工智能系统在决策过程中更具自我监督能力的方法。 

该模型并不完全依赖于人类的反馈,而是学会根据一套预定义的原则来批判和改进自己的反应。这种方法类似于法律系统,法官在做出判决前会参考宪法。

在这种情况下,模型既是裁判又是学生,使用同一套规则来审查和完善自己的行为。这一过程加强了人工智能模型的一致性,并支持开发安全、负责任的人工智能系统。

人工智能制宪是如何运作的?

宪法人工智能的目标是教会人工智能模型如何按照一套明确的书面规则做出安全、公平的决定。以下是这一过程的简单分解:

  • 确定章程: 制定一份书面清单,列出模型应遵循的道德原则。该章程概述了人工智能应避免什么以及应体现什么价值。

  • 培训 有监督的 示例: 向模型展示遵循章程的应答示例。这些示例有助于人工智能理解可接受的行为是什么样的。

  • 识别和应用模式: 随着时间的推移,模型开始掌握这些模式。它学会在回答新问题或处理新情况时应用相同的价值观。

  • 批判和改进产出: 模型会审查自己的反应,并根据构成进行调整。这一自我审查阶段可以帮助它改进,而无需仅仅依赖人类的反馈。

  • 产生一致且更安全的响应: 模型从一致的规则中学习,有助于减少偏差,提高实际使用中的可靠性。这种方法使其更符合人类的价值观,也更易于管理。
__wf_保留继承
图 2.使用宪法人工智能训练模型的概述。

人工智能设计伦理的核心原则

要让人工智能模型遵守道德规则,首先需要明确界定这些规则。就宪法人工智能而言,这些规则基于一系列核心原则。 

例如,以下四项原则构成了有效人工智能章程的基础:

  • 透明度: 应易于理解模型是如何得出答案的。如果答案是基于事实、估计或模式得出的,那么它对用户来说就是透明的。这可以建立信任,帮助人们判断是否可以信赖模型的输出结果。

  • 平等: 不同用户的回复应保持一致。模型不应根据个人的姓名、背景或地点改变输出结果。平等有助于防止偏见并促进平等待遇。

  • 问责制:应该有办法追踪模型是如何训练的,是什么影响了它的行为。当出现问题时,团队应能找出原因并加以改进。这有助于提高透明度和长期问责制。

  • 安全: 模型需要避免产生可能造成伤害的内容。如果一个请求会导致有风险或不安全的输出,系统应该识别并停止。这样既可以保护用户,也可以保护系统的完整性。

大型语言模型中的宪法人工智能实例

宪法人工智能已经从理论走向实践,现在正慢慢用于与数百万用户互动的大型模型中。最常见的两个例子是OpenAI和Anthropic 的 LLM。 

虽然这两个组织都采取了不同的方法来创建更合乎道德的人工智能系统,但它们有一个共同的理念:教导模型遵循一套成文的指导原则。让我们仔细看看这些例子。

OpenAI 的人工智能宪法方法

OpenAI 引入了一份名为 "模型规范 "的文件,作为其ChatGPT 模型培训流程的一部分。这份文件就像一部宪法。它概述了模型在其响应中应追求的目标,包括诸如乐于助人、诚实和安全等价值观。它还定义了什么是有害或误导性输出。 

这个框架被用来对 OpenAI 的模型进行微调,根据回应与规则的匹配程度对回应进行评级。随着时间的推移,这有助于塑造 ChatGPT使其产生的有害输出更少,更符合用户的实际需求。 

__wf_保留继承
图 3.ChatGPT 使用 OpenAI 的模型规格进行响应的示例。

Anthropic的人工智能伦理模型

Anthropic的克劳德模型所遵循的章程是基于《世界人权宣言》等伦理原则、苹果公司服务条款等平台准则以及其他人工智能实验室的研究成果。这些原则有助于确保克劳德的反应安全、公平,并符合人类的重要价值观。

克劳德还使用了人工智能反馈强化学习技术(RLAIF),它可以根据这些道德准则审查和调整自己的回答,而不是依赖人类的反馈。这一过程使克劳德能够随着时间的推移不断改进,使其更具可扩展性,即使在棘手的情况下,也能更好地提供有益、合乎道德和无害的回答。

__wf_保留继承
图 4.了解Anthropic的人工智能宪法方法。

将宪法人工智能应用于计算机视觉

既然人工智能对语言模型的行为产生了积极影响,自然会引出一个问题:类似的方法能否帮助基于视觉的系统做出更公平、更安全的反应? 

虽然计算机视觉模型使用的是图像而不是文本,但道德指导的必要性同样重要。例如,公平和偏见是需要考虑的关键因素,因为这些系统需要经过训练,在分析视觉数据时平等对待每个人,避免有害或不公平的结果。

__wf_保留继承
图 5.与计算机视觉相关的伦理挑战。图片由作者提供。

目前,计算机视觉中的宪法人工智能方法仍在探索之中,并处于早期阶段,该领域的研究仍在继续。

例如,Meta 公司最近推出了CLUE,这是一个将宪法式推理应用于图像安全任务的框架。它将宽泛的安全规则转化为多模态人工智能(处理和理解多种类型数据的人工智能系统)可以遵循的精确步骤。这有助于系统更清晰地进行推理,减少有害结果。 

此外,CLUE 简化了复杂的规则,使人工智能模型能够快速、准确地采取行动,而无需大量的人工输入,从而提高了图像安全性判断的效率。通过使用一套指导原则,CLUE 使图像调节系统更具可扩展性,同时确保高质量的结果。

主要收获

随着人工智能系统承担的责任越来越多,人们关注的焦点也从它们能做什么转向它们应该做什么。这种转变非常关键,因为这些系统被用于直接影响人们生活的领域,如医疗保健、执法和教育。 

要确保人工智能系统以适当和合乎道德的方式行事,它们需要一个坚实而一致的基础。这一基础应优先考虑公平、安全和信任。 

书面章程可以在培训期间提供基础,指导系统的决策过程。它还可以为开发人员提供一个框架,用于在部署后审查和调整系统的行为,确保其继续符合设计时所秉持的价值观,并在出现新的挑战时更容易适应。

立即加入我们不断壮大的社区!探索我们的GitHub 存储库,深入了解人工智能。想构建自己的计算机视觉项目?了解我们的许可选项。访问我们的解决方案页面,了解计算机视觉如何在医疗保健领域提高效率,并探索人工智能对制造业的影响!

LinkedIn 徽标Twitter 徽标Facebook 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅