绿色检查
链接复制到剪贴板

OpenAI o1:用于人工智能推理的 OpenAI 模型新系列

了解最新推出的 OpenAI o1 模型及其特别之处。我们还将了解它们的工作原理及其对人工智能未来的影响。

人工智能社区对OpenAI 的 GPT 模型的下一步进行了热切的猜测,许多人将其称为 "草莓项目"。这背后的原因是,如果你问GPT-4o"草莓 "这个词中有几个 R,它会告诉你"草莓"这个词中有两个 R。考虑到 GPT-4o 的强大功能,这似乎有些奇怪。不过,该模型是用来处理潜台词的,而不是准确的单词。有传言称,下一个型号将致力于解决这个问题。Sam 阿尔特曼在他的X(前身为 Twitter)账户上发布了草莓的图片,进一步助长了这些传言。

随着OpenAI于 9 月 12 日(周四)发布最新公告,我们终于对外界的猜测有了答案!OpenAI o1 是一系列新的人工智能模型,旨在放慢速度,思考后再做出反应。有趣的是,OpenAI o1 可以更好地进行推理,并正确回答有关草莓的问题!在本文中,我们将讨论 OpenAI o1 是什么、如何工作、在哪里可以使用以及它对人工智能的未来意味着什么。让我们开始吧!

图 1.提示 OpenAI o1 有关草莓的示例。

OpenAI 在人工智能领域取得的新进展

2024 年 7 月,OpenAI 高层分享说,OpenAI 的研究已接近人类解决问题的水平,即人工智能的第二级。很明显,这一水平的重点是推理,因为 OpenAI 介绍其新的模型系列 OpenAI o1 时说,在回答问题之前先思考。OpenAI o1 是一种新型LLM(大型语言模型),是一种通过从海量语言数据中学习模式来理解和生成类人文本的人工智能模型。它旨在处理需要深入推理的复杂问题。 

图 2.OpenAI 对人工智能发展阶段的看法。

该模型是通过强化学习技术训练出来的,在强化学习技术中,模型通过对自己的行为进行奖励或惩罚,学会通过试错做出更好的决定。强化学习算法有助于模型按照思维链进行更有效的思考。OpenAI 还分享说,o1 的性能随着训练过程中强化学习的增加和解决问题过程中 "思考 "时间的增加而不断提高,这表明扩展训练和深思熟虑的处理都有助于提高模型的能力。

虽然 OpenAI o1 在复杂推理方面取得了重大进步,但它仍然是一个早期模型,缺乏一些让ChatGPT 有用的功能,例如浏览网页或上传文件和图片。就许多常见任务而言,GPT-4o 目前可能仍然更胜一筹。不过,OpenAI o1 标志着人工智能在处理复杂推理的能力上向前迈进了一大步,这也是 OpenAI 启动新系列并将其命名为 OpenAI o1 的原因。

新的 OpenAI 模型如何增强人工智能推理能力

OpenAI o1 可用于解密密码、解决编程难题、解答数学问题、处理填字游戏,甚至处理科学安全医疗保健方面的复杂问题。为了向项目的代号致敬,OpenAI 通过破解密码显示了 "THERE A THRE THREE R'S IN STRAWBERRY "的信息,展示了模型的推理能力。 

除了解决密码问题,OpenAI o1 还擅长编码。它在竞技编程挑战赛中表现出色,比如在 Codeforces(一个程序员在计时条件下解决复杂编码问题的平台)上。在这些挑战赛中,该模型获得了很高的 Elo 评分(一种根据与其他竞争对手的表现来衡量技能水平的评分系统),并超越了以前的模型。它在数学方面也很出色,在美国数学邀请考试(AIME)等考试中表现出色。 

图 3.o1 的编码能力基准。

这些进步使 OpenAI o1 成为 GPT-4o 等早期型号的重要升级版。它为人工智能在商业、开发、研究医疗保健等领域的应用开辟了新的可能性。例如,在遗传学研究领域,OpenAI o1 可以快速浏览大量研究论文,找出关键发现以及遗传标记与疾病之间的联系。它能理解复杂的科学语言,并能总结要点,帮助研究人员专注于最相关的信息。 

近观思想链

我们在前面看到,OpenAI o1 引入了 "思维链 "推理过程。它使模型能够以类似人类认知策略的方式解决复杂问题。该模型可以将挑战分解为更小、更易于管理的步骤,并不断改进其方法。与早期依赖即时模式识别模型不同,o1 通过探索多种推理路径来优化决策,并通过强化学习从成功和错误中吸取经验教训。

OpenAI 决定不向用户公开这些原始的思维链,而是提供摘要,让用户深入了解模型的推理过程,但又不暴露每一个步骤。这一决定有助于防止滥用模型的思维过程,同时还允许开发人员监控和完善人工智能的安全性和一致性。通过观察内部隐藏链,开发人员可以确保 o1 遵守道德准则,避免有害行为。

以 OpenAI 为基准 o1

OpenAI o1与GPT-4o相比,在测试推理和解决问题能力的几项基准测试中取得了重大进步。2024 年美国数学邀请考试(AIME)是针对顶尖高中生的一项具有挑战性的数学考试,o1 在每道题只有一个样本的情况下达到了 74% 的准确率,而 GPT-4o 只有 12%。通过对 64 个样本达成共识,o1 的准确率提高到 83%,而通过使用 1000 个样本的改进重新排名方法,o1 的准确率达到 93%,跻身全国前 500 名学生之列。 

除数学外,o1 在测试科学知识的基准测试中也表现出色,如 GPQA Diamond,该测试涵盖了化学、物理生物领域的博士级问题。值得注意的是,o1 在这项测试中的表现超过了拥有博士学位的人类专家,成为第一个做到这一点的人工智能模型。在 MMLU 基准测试中,o1 还在 57 个类别中的 54 个类别上超过了 GPT-4o,MMLU 基准测试的内容涉及历史法律和科学等多个学科。

图 4.OpenAI o1 的基准测试。

亲身体验 OpenAI o1

OpenAI 在 o1 系列中推出了两个新的人工智能模型:o1-preview 和 o1-mini。o1-preview 模型旨在在做出反应之前进行更深入的思考,擅长科学、编码和数学领域的复杂推理任务。它为用户处理具有挑战性的项目提供了先进的问题解决能力。相比之下,o1-mini 是一种更小、更快、更具成本效益的模型,专门针对 STEM 推理(尤其是数学和编码)进行了优化。虽然 o1-mini 的知识面可能没有 o1-preview 那么广,但它在 AIME 数学竞赛和 Codeforces 编码挑战赛等关键评估中的表现几乎与 o1-preview 不相上下,而成本却降低了 80%。

图 5.OpenAI 模型比较。

您可以通过各种 OpenAI 平台试用这些模型。ChatGPT Plus 和 Team 用户可以通过模型选择器访问 o1-preview 和 o1-mini,直接在ChatGPT 中体验增强的推理能力。拥有 API 使用层 5 访问权限的开发人员可以开始使用这些模型进行原型开发,但一些高级功能仍在开发中。OpenAI 还计划很快向所有ChatGPT 免费用户提供 o1-mini。通过探索这些模型,您可以亲身体验人工智能推理的进步,并选择最适合您需求的模型。

OpenAI 提出的人工智能伦理问题

在开发 o1 模型系列时,OpenAI 注重道德和安全。在发布 o1-preview 和 o1-mini 模型之前,他们进行了全面的评估,包括外部测试和内部检查,以防出现不允许的内容、幻觉和偏见等风险。这些模型具有先进的推理能力,能够更好地理解和遵守安全规则。 

OpenAI 还实施了封锁列表和安全分类器等保障措施来管理风险。o1 模型的总体风险评级为中等。它在网络安全和模型自主性等方面的风险较低,在 CBRN(化学、生物、放射和核)内容和说服等方面的风险中等。OpenAI 的安全顾问小组和董事会已对这些安全措施进行了审查,以确保模型的安全和道德使用。

图 6.OpenAI o1 计分卡。

从传言到现实:OpenAI o1登上舞台

OpenAI o1 是人工智能推理领域的一大进步,它将早期的一些传言变成了现实。与 GPT-4o 不同,o1 系列通过使用 "思维链 "方法进行更深入的思考,将复杂的问题分解成更小的步骤,从而做出更好的反应。目前,OpenAI 在ChatGPT 和 API 中提供了早期预览版,并计划增加网页浏览、文件和图片上传等功能。OpenAI 还表示,他们计划继续开发和发布 GPT 系列模型,以及新的 OpenAI o1 系列。随着人工智能的不断发展,像这样的进步正在为更强大、更直观、更多功能的人工智能系统铺平道路,这些系统可以更好地协助和理解人类的需求。

加入我们的社区,了解人工智能的最新动态!访问我们的GitHub 存储库,了解我们如何在制造业医疗保健等领域开创人工智能解决方案。🚀

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅