请加入我们的行列,与我们一起仔细了解 OpenAI 最近发布的ChatGPT 更新。我们将探讨画布、视觉功能微调和最新的搜索功能。
在我们上次于 9 月份了解了OpenAI 的 o1 模型(旨在改进推理)之后,ChatGPT 。其中一些版本面向开发人员,而另一些版本则旨在完善用户体验。总体而言,每次升级都有助于使ChatGPT 的交互更直观、更有效。
诸如专为协作写作和编码而设计的 Canvas,以及改进ChatGPT 图像处理方式的视觉功能 微调等更新引发了广泛的兴趣,鼓励用户探索更多创造性的可能性。同时,新的应用程序接口和公平性测试报告等技术升级解决了模型集成和人工智能道德 实践等方面的问题。让我们深入了解 OpenAI 最新的ChatGPT 功能!
Canvas 是ChatGPT发布以来对用户界面(UI)的首次重大更新。新界面采用双屏布局,提示位于左侧边栏,回复位于右侧窗口。新的用户界面摒弃了聊天式单屏结构的常规工作流程,转而采用适合多任务处理的双屏布局,以提高工作效率。
在引入 Canvas 之前,在ChatGPT 上处理长文档意味着需要上下滚动很多页面。在新布局中,提示显示在左侧边栏,文本文档或代码片段占据了屏幕的大部分。如果需要,你甚至可以自定义左侧边栏和输出屏幕的大小。此外,你还可以选择部分文本或代码片段,在不修改整个文档的情况下编辑特定部分。
如果您使用 Canvas,您会发现ChatGPT 界面上没有特定的按钮或切换键来打开它。相反,在使用 GPT-4o 模型时,如果检测到您正在编辑、书写或编码,Canvas 就会自动打开。对于较简单的提示,它则处于非活动状态。如果要手动打开,可以使用 "打开画布 "或 "获取画布布局 "等提示。
目前,Canvas 还处于测试阶段,仅适用于 GPT-4o。不过,OpenAI 已经提到,Canvas 将在测试版结束后对所有免费用户开放。
OpenAI 发布了三个新的ChatGPT API 更新,旨在提高效率、可扩展性和通用性。让我们来详细了解一下这些更新。
通过 OpenAI API 使用模型蒸馏功能,开发人员可以使用 GPT-4o 或 o1-preview 等高级模型的输出结果来增强GPT-4o mini 等小型、经济高效模型的性能。模型蒸馏是一个过程,包括训练 较小的模型来模仿更高级模型的行为,使它们在执行特定任务时更加高效。
在引入这一功能之前,开发人员必须使用不同的工具手动协调各种任务。这些任务包括生成数据集、测量模型性能和微调模型,这往往使整个过程变得复杂且容易出错。模型蒸馏更新让开发人员可以使用 "存储完成"(Stored Completions)工具,通过应用程序接口(API)捕获并存储高级模型生成的输入输出对,从而自动生成数据集。
模型蒸馏的另一项功能 Evals(目前处于测试阶段)有助于衡量模型在特定任务中的表现,而无需创建自定义评估脚本或使用单独的工具。开发人员可以使用 "存储完成 "生成的数据集和 Evals评估性能,对自己的自定义 GPT 模型进行微调。
在构建人工智能应用程序(尤其是聊天机器人)时,相同的上下文(理解当前请求所需的背景信息或之前的对话历史)通常会在多个 API 调用中重复使用。通过提示缓存,开发人员可以重复使用最近使用过的输入标记(模型为理解提示和生成响应而处理的文本片段),从而帮助降低成本和延迟。
自 10 月 1 日起,OpenAI 已自动将提示缓存应用于 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 等模型。这意味着,当开发人员使用 API 与带有长提示(超过 1,024 个令牌)的模型进行交互时,系统会保存已经处理过的部分。
这样,如果再次使用相同或类似的提示,就可以跳过重新计算这些部分。系统会自动缓存之前遇到过的提示语中最长的部分,从 1,024 个词组开始,随着提示语变长,系统会自动添加 128 个词组的分块。
创建语音助手通常需要将音频转录为文本、处理文本,然后再将其转换回音频以播放响应。OpenAI 的实时应用程序接口(Realtime API)旨在通过单个应用程序接口请求来处理整个过程。通过简化流程,该 API 可实现与人工智能的实时对话。
例如,集成了实时应用程序接口(Realtime API)的语音助手可以根据用户请求执行特定操作,如下单或查找信息。该 API 使语音助手的响应速度更快,能够迅速适应用户的需求。Realtime API 于 10 月 1 日通过公开测试版推出,共有六种语音。10 月 30 日,又增加了五种语音,使可用语音总数达到 11 种。
最初,GPT-4o 视觉语言模型只能使用纯文本数据集进行微调和定制。现在,随着视觉微调 API 的发布,开发人员可以使用图像数据集来训练和定制 GPT-4o。自发布以来,视觉微调已成为开发人员和计算机视觉工程师关注的主要话题。
为了微调 GPT-4o 的视觉功能,开发人员可以使用少至 100 张图像、多至 50,000 张图像的图像数据集。在确保数据集符合 OpenAI 要求的格式后,就可以将其上传到 Openai 平台,并针对特定应用对模型进行微调。
例如,自动化公司 Automat 使用截图数据集来训练 GPT-4o ,使其能够根据描述识别屏幕上的用户界面元素。这有助于简化机器人流程自动化(RPA),让机器人更容易与用户界面进行交互。该模型不依赖于固定坐标或复杂的选择器规则,而是能够根据简单的描述识别用户界面元素,使自动化设置更具适应性,在界面发生变化时更易于维护。
随着人工智能变得越来越先进,围绕人工智能应用的伦理问题也成为一个突出的话题。由于ChatGPT的回答是基于用户提供的提示和互联网上的数据,因此要对其语言进行微调,使其一直保持负责任的态度是很有挑战性的。有报告称,ChatGPT的回答在姓名、性别和种族方面存在偏差。为了解决这个问题,OpenAI 的内部团队进行了第一人称公平性测试。
名字往往蕴含着有关我们的文化和地理因素的微妙线索。在大多数情况下,ChatGPT 会忽略名字中的微妙暗示。然而,在某些情况下,反映种族或文化的名称会导致ChatGPT 的不同反应,其中约 1%反映的是有害语言。对于语言模型来说,消除偏见和有害语言是一项具有挑战性的任务。然而,通过公开分享这些发现并承认模型的局限性,OpenAI 可以帮助用户改进他们的提示,从而获得更加中立、无偏见的答案。
ChatGPT 刚推出时,人工智能社区曾讨论过它能否取代传统的网页浏览。现在,许多用户正在使用 ChatGPT 代替Google 搜索。
OpenAI 的新更新--"搜索 "功能--在此基础上又向前迈进了一步。有了搜索功能,ChatGPT 会生成最新回复,并包含相关来源的链接。自 10 月 31 日起,所有ChatGPT Plus 和 Team 用户均可使用搜索功能,这使得ChatGPT 的功能更像一个人工智能驱动的搜索引擎。
ChatGPT最近的更新重点是让人工智能更有用、更灵活、更公平。新的 "画布 "功能可以帮助用户更高效地工作,而视觉微调功能则可以让开发人员自定义模型,从而更好地处理视觉任务。解决公平性和减少偏见也是关键优先事项,以确保人工智能对每个人都能发挥良好的作用,无论他们是谁。无论您是正在对模型进行微调的开发人员,还是正在使用最新功能的开发人员,ChatGPT 都在不断发展,以满足广泛的需求。凭借实时功能、可视化集成和对负责任使用的关注,这些更新将为每个人打造更可信、更可靠的人工智能体验。
访问我们的GitHub 存储库并加入我们的社区,了解有关人工智能的更多信息。进一步了解人工智能在自动驾驶和医疗保健领域的应用。