ChatGPT 新功能：视觉、搜索及更多

在我们上次于九月份了解了OpenAI 的 o1 模型（旨在改进推理）之后，ChatGPT 又新增了许多令人兴奋的功能。其中一些版本面向开发者，另一些则旨在改善用户体验。总的来说，每次升级都有助于使 ChatGPT 的交互更直观、更有效。

诸如专为协作写作和编码而设计的 Canvas，以及改善 ChatGPT图像处理方式的视觉功能微调等更新引发了广泛的兴趣，鼓励用户探索更多创造性的可能性。同时，技术升级，如新的应用程序接口和公平性测试报告，解决了模型集成和人工智能道德实践等方面的问题。让我们深入了解 OpenAI 最新的 ChatGPT 功能！

OpenAI 的画布功能概述

Canvas 是 ChatGPT 用户界面 (UI) 自发布以来的首次重大更新。新界面采用双屏布局，提示位于左侧边栏，回复位于右侧窗口。新的用户界面摒弃了聊天式单屏结构的常规工作流程，转而采用适合多任务处理的双屏布局，以提高工作效率。

__wf_保留继承 — 图 1.Canvas 为 ChatGPT 带来用户界面更新。

‍

在引入 Canvas 之前，在 ChatGPT 上处理长文档需要上下滚动很多页面。在新布局中，提示显示在左侧边栏，文本文档或代码片段占据了屏幕的大部分。如果需要，你甚至可以自定义左侧边栏和输出屏幕的大小。此外，你还可以选择部分文本或代码片段，在不修改整个文档的情况下编辑特定部分。

‍

如果您使用 Canvas，您会发现在 ChatGPT 界面上没有特定的按钮或切换键来打开它。相反，在使用 GPT-4o 模型时，如果检测到您正在编辑、写作或编码，Canvas 就会自动打开。对于较简单的提示，它则保持不活动状态。如果要手动打开，可以使用 "打开画布 "或 "给我画布布局 "等提示。

目前，Canvas 还处于测试阶段，仅适用于 GPT-4o。不过，OpenAI 已经提到，Canvas 将在测试版结束后对所有免费用户开放。

ChatGPT 的应用程序接口更新

OpenAI 发布了三个新的 ChatGPT API 更新，旨在提高效率、可扩展性和通用性。让我们来详细了解一下这些更新。

蒸馏模型

通过 OpenAI API 使用模型蒸馏功能，开发人员可以使用 GPT-4o 或 o1-preview 等高级模型的输出结果来提高GPT-4o mini 等小型、经济高效模型的性能。模型蒸馏是一个过程，包括训练较小的模型来模仿更高级模型的行为，使它们在执行特定任务时更加高效。

在引入这一功能之前，开发人员必须使用不同的工具手动协调各种任务。这些任务包括生成数据集、测量模型性能和微调模型，这往往使整个过程变得复杂且容易出错。模型蒸馏更新让开发人员可以使用 "存储完成"（Stored Completions）工具，通过应用程序接口（API）捕获并存储高级模型生成的输入输出对，从而自动生成数据集。

模型蒸馏的另一项功能 Evals（目前处于测试阶段）有助于衡量模型在特定任务中的表现，而无需创建自定义评估脚本或使用单独的工具。开发人员可以使用存储完成生成的数据集和 Evals评估性能，对自己的自定义 GPT 模型进行微调。

‍

提示缓存

在构建人工智能应用程序（尤其是聊天机器人）时，相同的上下文（理解当前请求所需的背景信息或之前的对话历史）通常会在多个 API 调用中重复使用。通过提示缓存，开发人员可以重复使用最近使用过的输入标记（模型为理解提示和生成响应而处理的文本片段），从而帮助降低成本和延迟。

自 10 月 1 日起，OpenAI 已自动将提示缓存应用于 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 等模型。这意味着，当开发人员使用 API 与带有长提示（超过 1,024 个令牌）的模型进行交互时，系统会保存已经处理过的部分。

这样，如果再次使用相同或类似的提示，就可以跳过重新计算这些部分。系统会自动缓存以前遇到过的提示语中最长的部分，从 1,024 个词组开始，随着提示语变长，系统会自动添加 128 个词组的分块。

实时应用程序接口

创建语音助手通常需要将音频转录为文本、处理文本，然后再将其转换回音频以播放响应。OpenAI 的实时应用程序接口（Realtime API）旨在通过单个应用程序接口请求来处理整个过程。通过简化流程，该 API 可实现与人工智能的实时对话。

例如，集成了实时应用程序接口（Realtime API）的语音助手可以根据用户请求执行特定操作，如下单或查找信息。该 API 使语音助手反应更灵敏，能够快速适应用户的需求。Realtime API 于 10 月 1 日通过公开测试版推出，共有六种语音。10 月 30 日，又增加了五种语音，使可用语音总数达到 11 种。

‍

针对视觉任务微调 ChatGPT

最初，GPT-4o 视觉语言模型只能使用纯文本数据集进行微调和定制。现在，随着视觉微调 API 的发布，开发人员可以使用图像数据集来训练和定制 GPT-4o。自发布以来，视觉微调已成为开发人员和计算机视觉工程师关注的主要话题。

为了微调 GPT-4o 的视觉功能，开发人员可以使用少至 100 张图像，多至 50,000 张图像的图像数据集。在确保数据集符合 OpenAI 要求的格式后，就可以将其上传到 Openai 平台，并针对特定应用对模型进行微调。

例如，自动化公司 Automat 使用截图数据集来训练 GPT-4o ，使其能够根据描述识别屏幕上的用户界面元素。这有助于简化机器人流程自动化（RPA），让机器人更容易与用户界面进行交互。该模型不依赖于固定坐标或复杂的选择器规则，而是能够根据简单的描述识别用户界面元素，使自动化设置更具适应性，在界面发生变化时更易于维护。

‍

ChatGPT 公平性和偏见检测

随着人工智能变得越来越先进，围绕人工智能应用的伦理问题也成为一个突出的话题。由于 ChatGPT 的回答是基于用户提供的提示和互联网上的数据，因此要对其语言进行微调，使其始终负责任，是一项具有挑战性的工作。有报告称，ChatGPT 的回答在姓名、性别和种族方面存在偏见。为了解决这个问题，OpenAI 的内部团队进行了第一人称公平性测试。

名字通常会对我们的文化和地理因素产生微妙的暗示。在大多数情况下，ChatGPT 会忽略名字中的微妙暗示。然而，在某些情况下，反映种族或文化的名称会导致 ChatGPT 作出不同的反应，其中约有 1% 反映了有害语言。对于语言模型来说，消除偏见和有害语言是一项具有挑战性的任务。不过，通过公开分享这些发现并承认模型的局限性，OpenAI 可以帮助用户改进他们的提示，从而获得更加中立、无偏见的答案。

‍

了解 ChatGPT 搜索

在 ChatGPT 推出之初，人工智能社区曾讨论过它能否取代传统的网页浏览。现在，许多用户都在用 ChatGPT 代替谷歌搜索。

OpenAI 的新升级功能 "搜索 "在此基础上更进一步。有了搜索功能，ChatGPT 可以生成最新回复，并包含相关来源的链接。自 10 月 31 日起，所有 ChatGPT Plus 和 Team 用户都可以使用搜索功能，这使得 ChatGPT 的功能更像一个人工智能驱动的搜索引擎。

‍

未来之路

ChatGPT 最近的更新重点是让人工智能更有用、更灵活、更公平。新的 "画布"（Canvas）功能可以帮助用户更高效地工作，而视觉微调功能则允许开发人员自定义模型，以便更好地处理视觉任务。解决公平性和减少偏见也是关键优先事项，以确保人工智能对每个人都能发挥良好的作用，无论他们是谁。无论您是正在对模型进行微调的开发人员，还是正在使用最新功能的开发人员，ChatGPT 都在不断发展，以满足广泛的需求。凭借实时功能、可视化集成和对负责任使用的关注，这些更新将为每个人打造更可信、更可靠的人工智能体验。

访问我们的GitHub 存储库并加入我们的社区，探索有关人工智能的更多信息。进一步了解人工智能在自动驾驶和医疗保健领域的应用。

OpenAI 的最新更新：画布、视觉微调等

OpenAI 的画布功能概述

ChatGPT 的应用程序接口更新

蒸馏模型

提示缓存

实时应用程序接口

针对视觉任务微调 ChatGPT

ChatGPT 公平性和偏见检测

了解 ChatGPT 搜索

未来之路

在此类别中阅读更多内容

了解快速成型制造：技术和使用案例

机器人技术在制造业中的发展与未来

智能制造：智能生产指南

让我们共同打造人工智能的未来
！

OpenAI 的最新更新：画布、视觉微调等

OpenAI 的画布功能概述

ChatGPT 的应用程序接口更新

蒸馏模型

提示缓存

实时应用程序接口

针对视觉任务微调 ChatGPT

ChatGPT 公平性和偏见检测

了解 ChatGPT 搜索

未来之路

在此类别中阅读更多内容

了解快速成型制造：技术和使用案例

机器人技术在制造业中的发展与未来

智能制造：智能生产指南

让我们共同打造人工智能的未来！

让我们共同打造人工智能的未来
！