探索 GPT-4o Mini 的功能和应用。OpenAI 最新推出的最具成本效益的型号,提供先进的人工智能功能,价格比 GPT-3.5 Turbo 便宜 60%。
2024 年 5 月,OpenAI 发布了GPT-4o,仅仅三个月后,他们又推出了另一款令人印象深刻的机型:GPT-4o Mini。2024 年 7 月 18 日,OpenAI 推出了 GPT-4oMini。他们称其为 "最具成本效益的型号"!GPT-4o Mini 是一款小巧的机型,它在之前机型的基础上进行了改进,旨在让先进的人工智能变得更容易获取、更经济实惠。
GPT-4o Mini 目前支持文本和视觉交互,预计未来的更新将增加处理图像、视频和音频的功能。在本文中,我们将探讨 GPT-4o Mini 是什么、它的突出特点、如何使用、GPT-4 和 GPT-4o Mini 之间的区别,以及如何将其用于各种计算机视觉用例。让我们深入了解 GPT-4o Mini 的功能!
GPT-4o Mini 是 OpenAI 的人工智能模型阵容中的最新成员,旨在提高成本效益和可访问性。它是一个多模态大语言模型(LLM),这意味着它可以处理和生成不同类型的数据,如文本、图像、视频和音频。该模型借鉴了 GPT-4 和 GPT-4o 等前代模型的优点,以小巧的体积提供强大的功能。
GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%,每百万输入令牌(模型处理的文本或数据单位)的成本为 15 美分,每百万输出令牌(模型生成的响应单位)的成本为 60 美分。从这个角度来看,一百万个令牌大致相当于处理 2,500 页文本。GPT-4o Mini 的上下文窗口为 128K 标记,每个请求可处理多达 16K 输出标记,因此其设计既高效又经济实惠。
GPT-4o Mini 支持一系列任务,是各种应用的最佳选择。它可用于同时运行多个操作,如调用多个 API、处理大量数据(如完整代码库或对话历史),以及在客户支持聊天机器人中提供快速、实时的响应。
以下是其他一些主要功能:
您可以尝试通过ChatGPT 界面使用 GPT-4o Mini。如下图所示,免费用户、Plus 用户和团队用户都可以使用它,取代 GPT-3.5。企业用户也将很快获得访问权,这符合 OpenAI 为所有人提供人工智能福利的目标。GPT-4o Mini 还可通过 API 提供给希望将其功能集成到其应用程序中的开发人员。目前,视觉功能只能通过 API 访问。
GPT-4o Mini 和 GPT-4o 在各种基准测试中的表现都令人印象深刻。虽然 GPT-4o 总体上优于 GPT-4o Mini,但对于日常任务而言,GPT-4o Mini 仍然是一种经济高效的解决方案。这些基准包括推理任务、数学和编码能力以及多模态推理。如下图所示,与其他流行型号相比,GPT-4o Mini 的基准相当高。
有一个有趣的提示在网上引起了争论,其中涉及流行的 LLM错误比较小数点后的数字。当我们对 GPT-4o 和 GPT-4o Mini 进行测试时,它们的推理能力显示出明显的差异。在下图中,我们问两个模型哪个更大:9.11 还是 9.9,然后让它们解释自己的推理。
两个模型最初的回答都不正确,都说 9.11 大。但是,GPT-4o 能够通过推理得出正确答案,并指出 9.9 大于 9.11。它提供了详细的解释,并准确地比较了小数的大小。与此相反,GPT-4o Mini 尽管能正确推理出 9.9 大于 9.11 的原因,但仍顽固地坚持最初的错误答案。
两种模型都显示出很强的推理能力。GPT-4o 的自我校正能力使其在执行更复杂的任务时更胜一筹。迷你版 GPT-4o 虽然适应性较差,但仍能为较简单的任务提供清晰准确的推理。
如果您想在不深入代码的情况下探索 GPT-4o Mini 的视觉功能,可以在OpenAI Playground 上轻松测试 API。我们自己也进行了测试,看看 GPT-4o Mini 处理各种计算机视觉相关用例的能力如何。
我们要求 GPT-4o Mini 对两张图片进行分类:一张是蝴蝶,另一张是地图。人工智能模型成功识别了蝴蝶和地图。由于两张图片截然不同,因此这是一项相当简单的任务。
我们继续通过模型运行另外两张图片:一张显示蝴蝶停在植物上,另一张显示蝴蝶停在地上。人工智能再次表现出色,正确识别了植物上的蝴蝶和地面上的蝴蝶。于是,我们又向前迈进了一步。
然后,我们让 GPT-4o Mini 对两张图片进行分类:一张是蝴蝶在沼泽乳草花上取食的图片,另一张是蝴蝶在紫云英花上取食的图片。令人惊讶的是,该模型无需进一步微调就能对如此具体的标签进行分类。这些快速示例表明,GPT-4o Mini 可以用于图像分类任务,而无需进行定制训练。
目前,GPT-4o Mini 还不能处理对象检测和实例分割等计算机视觉任务。GPT-4o 在准确性方面有困难,但可以用于此类任务。因此,在理解姿势方面,我们无法检测或估计图像中的姿势,但可以对姿势进行分类和理解。
上图显示了 GPT-4o Mini 如何对姿势进行分类和理解,尽管它无法检测或估计姿势的精确坐标。这在不同的应用中都会有所帮助。例如,在体育分析中,它可以对运动员的动作进行广泛评估,帮助预防受伤。同样,在物理治疗中,它可以帮助监测练习,确保病人在康复过程中做出正确的动作。在监控方面,它还可以通过分析一般的肢体语言来帮助识别可疑活动。虽然 GPT-4o Mini 无法检测特定的关键点,但它能对一般姿势进行分类,因此在这些领域和其他领域非常有用。
我们已经了解了 GPT-4o Mini 的功能。现在,让我们讨论一下哪些应用最适合使用 GPT-4o Mini。
GPT-4o Mini 非常适合需要高级自然语言理解且计算占用空间较小的应用。它可以将人工智能集成到通常成本过高的应用中。事实上,Artificial Analysis的详细分析显示,与大多数其他型号相比,GPT-4o Mini 能以极快的速度提供高质量的响应。
以下是它未来可能大放异彩的几个关键领域:
GPT-4o Mini 为多模态人工智能的未来创造了新机遇。自 2022 年发布 text-davinci-003(GPT-3 型号)以来,处理每个文本或数据的成本(即每个令牌的成本)大幅降低了近 99%。成本的降低表明,先进的人工智能正朝着更加经济实惠的方向发展。随着人工智能模型的不断改进,将人工智能整合到每个应用程序和网站中在经济上越来越可行!
想亲身体验人工智能?访问我们的GitHub 存储库,了解我们的创新成果,并成为我们活跃社区的一员。在我们的解决方案页面了解更多有关人工智能在制造业和农业中的应用。