绿色检查
链接复制到剪贴板

深入了解 OpenAI GPT-4o Mini 的功能

探索 GPT-4o Mini 的功能和应用。OpenAI 最新推出的最具成本效益的型号,提供先进的人工智能功能,价格比 GPT-3.5 Turbo 便宜 60%。

2024 年 5 月,OpenAI 发布了GPT-4o,仅仅三个月后,他们又推出了另一款令人印象深刻的机型:GPT-4o Mini。2024 年 7 月 18 日,OpenAI 推出了 GPT-4oMini。他们称其为 "最具成本效益的型号"!GPT-4o Mini 是一款小巧的机型,它在之前机型的基础上进行了改进,旨在让先进的人工智能变得更容易获取、更经济实惠。

GPT-4o Mini 目前支持文本和视觉交互,预计未来的更新将增加处理图像、视频和音频的功能。在本文中,我们将探讨 GPT-4o Mini 是什么、它的突出特点、如何使用、GPT-4 和 GPT-4o Mini 之间的区别,以及如何将其用于各种计算机视觉用例。让我们深入了解 GPT-4o Mini 的功能!

什么是 GPT-4o Mini?

GPT-4o Mini 是 OpenAI 的人工智能模型阵容中的最新成员,旨在提高成本效益和可访问性。它是一个多模态大语言模型(LLM),这意味着它可以处理和生成不同类型的数据,如文本、图像、视频和音频。该模型借鉴了 GPT-4 和 GPT-4o 等前代模型的优点,以小巧的体积提供强大的功能。 

GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%,每百万输入令牌(模型处理的文本或数据单位)的成本为 15 美分,每百万输出令牌(模型生成的响应单位)的成本为 60 美分。从这个角度来看,一百万个令牌大致相当于处理 2,500 页文本。GPT-4o Mini 的上下文窗口为 128K 标记,每个请求可处理多达 16K 输出标记,因此其设计既高效又经济实惠。

图 1.GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%。

GPT-4o Mini 的主要功能 

GPT-4o Mini 支持一系列任务,是各种应用的最佳选择。它可用于同时运行多个操作,如调用多个 API、处理大量数据(如完整代码库或对话历史),以及在客户支持聊天机器人中提供快速、实时的响应。

以下是其他一些主要功能:

  • 更新知识库: 该模型包含截至 2023 年 10 月的信息。
  • 改进的令牌器:GPT-4o Mini 使非English 文本处理更具成本效益。
  • 强大的安全措施:这些措施包括过滤有害内容,防范提示注入和系统篡改等安全问题。

开始使用 GPT-4o Mini 

您可以尝试通过ChatGPT 界面使用 GPT-4o Mini。如下图所示,免费用户、Plus 用户和团队用户都可以使用它,取代 GPT-3.5。企业用户也将很快获得访问权,这符合 OpenAI 为所有人提供人工智能福利的目标。GPT-4o Mini 还可通过 API 提供给希望将其功能集成到其应用程序中的开发人员。目前,视觉功能只能通过 API 访问。

图 2. ChatGPT 中的模型选项。

GPT-4o 与迷你版 GPT-4o 的区别 

GPT-4o Mini 和 GPT-4o 在各种基准测试中的表现都令人印象深刻。虽然 GPT-4o 总体上优于 GPT-4o Mini,但对于日常任务而言,GPT-4o Mini 仍然是一种经济高效的解决方案。这些基准包括推理任务、数学和编码能力以及多模态推理。如下图所示,与其他流行型号相比,GPT-4o Mini 的基准相当高。

图 3.GPT-4o Mini 与其他流行型号的比较。

亲身体验 GPT-4o 和 GPT-4o Mini

有一个有趣的提示在网上引起了争论,其中涉及流行的 LLM错误比较小数点后的数字。当我们对 GPT-4o 和 GPT-4o Mini 进行测试时,它们的推理能力显示出明显的差异。在下图中,我们问两个模型哪个更大:9.11 还是 9.9,然后让它们解释自己的推理。

图 4.测试 GPT-4o 和 GPT-4o Mini。

两个模型最初的回答都不正确,都说 9.11 大。但是,GPT-4o 能够通过推理得出正确答案,并指出 9.9 大于 9.11。它提供了详细的解释,并准确地比较了小数的大小。与此相反,GPT-4o Mini 尽管能正确推理出 9.9 大于 9.11 的原因,但仍顽固地坚持最初的错误答案。

两种模型都显示出很强的推理能力。GPT-4o 的自我校正能力使其在执行更复杂的任务时更胜一筹。迷你版 GPT-4o 虽然适应性较差,但仍能为较简单的任务提供清晰准确的推理。 

将 GPT-4o Mini 用于各种计算机视觉应用案例

如果您想在不深入代码的情况下探索 GPT-4o Mini 的视觉功能,可以在OpenAI Playground 上轻松测试 API。我们自己也进行了测试,看看 GPT-4o Mini 处理各种计算机视觉相关用例的能力如何。

使用微型 GPT-4o 进行图像分类

我们要求 GPT-4o Mini 对两张图片进行分类:一张是蝴蝶,另一张是地图。人工智能模型成功识别了蝴蝶和地图。由于两张图片截然不同,因此这是一项相当简单的任务。

图 5.借助 GPT-4o Mini 对图像进行分类。

我们继续通过模型运行另外两张图片:一张显示蝴蝶停在植物上,另一张显示蝴蝶停在地上。人工智能再次表现出色,正确识别了植物上的蝴蝶和地面上的蝴蝶。于是,我们又向前迈进了一步。

图 6.借助 GPT-4o Mini 对相似图像进行分类。

然后,我们让 GPT-4o Mini 对两张图片进行分类:一张是蝴蝶在沼泽乳草花上取食的图片,另一张是蝴蝶在紫云英花上取食的图片。令人惊讶的是,该模型无需进一步微调就能对如此具体的标签进行分类。这些快速示例表明,GPT-4o Mini 可以用于图像分类任务,而无需进行定制训练。

图 7.借助 GPT-4o Mini 对详细图像进行分类。

使用迷你 GPT-4o 理解姿势

目前,GPT-4o Mini 还不能处理对象检测实例分割计算机视觉任务。GPT-4o 在准确性方面有困难,但可以用于此类任务。因此,在理解姿势方面,我们无法检测或估计图像中的姿势,但可以对姿势进行分类和理解。

图 8.使用 GPT-4o Mini 理解图像中的姿势。 

上图显示了 GPT-4o Mini 如何对姿势进行分类和理解,尽管它无法检测或估计姿势的精确坐标。这在不同的应用中都会有所帮助。例如,在体育分析中,它可以对运动员的动作进行广泛评估,帮助预防受伤。同样,在物理治疗中,它可以帮助监测练习,确保病人在康复过程中做出正确的动作。在监控方面,它还可以通过分析一般的肢体语言来帮助识别可疑活动。虽然 GPT-4o Mini 无法检测特定的关键点,但它能对一般姿势进行分类,因此在这些领域和其他领域非常有用。

GPT-4o Mini 适用于以下应用

我们已经了解了 GPT-4o Mini 的功能。现在,让我们讨论一下哪些应用最适合使用 GPT-4o Mini。

GPT-4o Mini 非常适合需要高级自然语言理解且计算占用空间较小的应用。它可以将人工智能集成到通常成本过高的应用中。事实上,Artificial Analysis的详细分析显示,与大多数其他型号相比,GPT-4o Mini 能以极快的速度提供高质量的响应。

图 9.微型 GPT-4o 的质量与输出速度的关系。

以下是它未来可能大放异彩的几个关键领域

  • 虚拟助理和聊天机器人: GPT-4o Mini 可以提供快速、智能的响应,改善用户互动。
  • 教育工具: 模型可用于构建提供个性化辅导和内容生成的工具。
  • 生产力工具:它可以改进文件摘要、起草电子邮件和语言翻译等任务,从而提高效率。
  • 语言翻译: 最新版本的 GPT 可用于开发翻译器,提供准确、实时的语言翻译,从而改善不同语言间的交流。

微型 GPT-4o 打开新大门

GPT-4o Mini 为多模态人工智能的未来创造了新机遇。自 2022 年发布 text-davinci-003(GPT-3 型号)以来,处理每个文本或数据的成本(即每个令牌的成本)大幅降低了近 99%。成本的降低表明,先进的人工智能正朝着更加经济实惠的方向发展。随着人工智能模型的不断改进,将人工智能整合到每个应用程序和网站中在经济上越来越可行!

想亲身体验人工智能?访问我们的GitHub 存储库,了解我们的创新成果,并成为我们活跃社区的一员。在我们的解决方案页面了解更多有关人工智能在制造业农业中的应用。

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅