在我们上次于九月份了解了OpenAI 的 o1 模型(旨在改进推理)之后,ChatGPT 又新增了许多令人兴奋的功能。其中一些版本面向开发者,另一些则旨在改善用户体验。总的来说,每次升级都有助于使 ChatGPT 的交互更直观、更有效。
诸如专为协作写作和编码而设计的 Canvas,以及改善 ChatGPT图像处理方式的视觉功能 微调等更新引发了广泛的兴趣,鼓励用户探索更多创造性的可能性。同时,技术升级,如新的应用程序接口和公平性测试报告,解决了模型集成和人工智能道德 实践等方面的问题。让我们深入了解 OpenAI 最新的 ChatGPT 功能!
Canvas 是 ChatGPT 用户界面 (UI) 自发布以来的首次重大更新。新界面采用双屏布局,提示位于左侧边栏,回复位于右侧窗口。新的用户界面摒弃了聊天式单屏结构的常规工作流程,转而采用适合多任务处理的双屏布局,以提高工作效率。
在引入 Canvas 之前,在 ChatGPT 上处理长文档需要上下滚动很多页面。在新布局中,提示显示在左侧边栏,文本文档或代码片段占据了屏幕的大部分。如果需要,你甚至可以自定义左侧边栏和输出屏幕的大小。此外,你还可以选择部分文本或代码片段,在不修改整个文档的情况下编辑特定部分。
如果您使用 Canvas,您会发现在 ChatGPT 界面上没有特定的按钮或切换键来打开它。相反,在使用 GPT-4o 模型时,如果检测到您正在编辑、写作或编码,Canvas 就会自动打开。对于较简单的提示,它则保持不活动状态。如果要手动打开,可以使用 "打开画布 "或 "给我画布布局 "等提示。
目前,Canvas 还处于测试阶段,仅适用于 GPT-4o。不过,OpenAI 已经提到,Canvas 将在测试版结束后对所有免费用户开放。
OpenAI 发布了三个新的 ChatGPT API 更新,旨在提高效率、可扩展性和通用性。让我们来详细了解一下这些更新。
通过 OpenAI API 使用模型蒸馏功能,开发人员可以使用 GPT-4o 或 o1-preview 等高级模型的输出结果来提高GPT-4o mini 等小型、经济高效模型的性能。模型蒸馏是一个过程,包括训练 较小的模型来模仿更高级模型的行为,使它们在执行特定任务时更加高效。
在引入这一功能之前,开发人员必须使用不同的工具手动协调各种任务。这些任务包括生成数据集、测量模型性能和微调模型,这往往使整个过程变得复杂且容易出错。模型蒸馏更新让开发人员可以使用 "存储完成"(Stored Completions)工具,通过应用程序接口(API)捕获并存储高级模型生成的输入输出对,从而自动生成数据集。
模型蒸馏的另一项功能 Evals(目前处于测试阶段)有助于衡量模型在特定任务中的表现,而无需创建自定义评估脚本或使用单独的工具。开发人员可以使用存储完成生成的数据集和 Evals评估性能,对自己的自定义 GPT 模型进行微调。
在构建人工智能应用程序(尤其是聊天机器人)时,相同的上下文(理解当前请求所需的背景信息或之前的对话历史)通常会在多个 API 调用中重复使用。通过提示缓存,开发人员可以重复使用最近使用过的输入标记(模型为理解提示和生成响应而处理的文本片段),从而帮助降低成本和延迟。
自 10 月 1 日起,OpenAI 已自动将提示缓存应用于 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 等模型。这意味着,当开发人员使用 API 与带有长提示(超过 1,024 个令牌)的模型进行交互时,系统会保存已经处理过的部分。
这样,如果再次使用相同或类似的提示,就可以跳过重新计算这些部分。系统会自动缓存以前遇到过的提示语中最长的部分,从 1,024 个词组开始,随着提示语变长,系统会自动添加 128 个词组的分块。
创建语音助手通常需要将音频转录为文本、处理文本,然后再将其转换回音频以播放响应。OpenAI 的实时应用程序接口(Realtime API)旨在通过单个应用程序接口请求来处理整个过程。通过简化流程,该 API 可实现与人工智能的实时对话。
例如,集成了实时应用程序接口(Realtime API)的语音助手可以根据用户请求执行特定操作,如下单或查找信息。该 API 使语音助手反应更灵敏,能够快速适应用户的需求。Realtime API 于 10 月 1 日通过公开测试版推出,共有六种语音。10 月 30 日,又增加了五种语音,使可用语音总数达到 11 种。
最初,GPT-4o 视觉语言模型只能使用纯文本数据集进行微调和定制。现在,随着视觉微调 API 的发布,开发人员可以使用图像数据集来训练和定制 GPT-4o。自发布以来,视觉微调已成为开发人员和计算机视觉工程师关注的主要话题。
为了微调 GPT-4o 的视觉功能,开发人员可以使用少至 100 张图像,多至 50,000 张图像的图像数据集。在确保数据集符合 OpenAI 要求的格式后,就可以将其上传到 Openai 平台,并针对特定应用对模型进行微调。
例如,自动化公司 Automat 使用截图数据集来训练 GPT-4o ,使其能够根据描述识别屏幕上的用户界面元素。这有助于简化机器人流程自动化(RPA),让机器人更容易与用户界面进行交互。该模型不依赖于固定坐标或复杂的选择器规则,而是能够根据简单的描述识别用户界面元素,使自动化设置更具适应性,在界面发生变化时更易于维护。
随着人工智能变得越来越先进,围绕人工智能应用的伦理问题也成为一个突出的话题。由于 ChatGPT 的回答是基于用户提供的提示和互联网上的数据,因此要对其语言进行微调,使其始终负责任,是一项具有挑战性的工作。有报告称,ChatGPT 的回答在姓名、性别和种族方面存在偏见。为了解决这个问题,OpenAI 的内部团队进行了第一人称公平性测试。
名字通常会对我们的文化和地理因素产生微妙的暗示。在大多数情况下,ChatGPT 会忽略名字中的微妙暗示。然而,在某些情况下,反映种族或文化的名称会导致 ChatGPT 作出不同的反应,其中约有 1% 反映了有害语言。对于语言模型来说,消除偏见和有害语言是一项具有挑战性的任务。不过,通过公开分享这些发现并承认模型的局限性,OpenAI 可以帮助用户改进他们的提示,从而获得更加中立、无偏见的答案。
在 ChatGPT 推出之初,人工智能社区曾讨论过它能否取代传统的网页浏览。现在,许多用户都在用 ChatGPT 代替谷歌搜索。
OpenAI 的新升级功能 "搜索 "在此基础上更进一步。有了搜索功能,ChatGPT 可以生成最新回复,并包含相关来源的链接。自 10 月 31 日起,所有 ChatGPT Plus 和 Team 用户都可以使用搜索功能,这使得 ChatGPT 的功能更像一个人工智能驱动的搜索引擎。
ChatGPT 最近的更新重点是让人工智能更有用、更灵活、更公平。新的 "画布"(Canvas)功能可以帮助用户更高效地工作,而视觉微调功能则允许开发人员自定义模型,以便更好地处理视觉任务。解决公平性和减少偏见也是关键优先事项,以确保人工智能对每个人都能发挥良好的作用,无论他们是谁。无论您是正在对模型进行微调的开发人员,还是正在使用最新功能的开发人员,ChatGPT 都在不断发展,以满足广泛的需求。凭借实时功能、可视化集成和对负责任使用的关注,这些更新将为每个人打造更可信、更可靠的人工智能体验。
访问我们的GitHub 存储库并加入我们的社区,探索有关人工智能的更多信息。进一步了解人工智能在自动驾驶和医疗保健领域的应用。