绿色检查
链接复制到剪贴板

OpenAI 的 GPT-4o 展示了人工智能的潜力

探索 OpenAI 的全新 GPT-4o,它具有先进的人工智能和逼真的交互,改变了我们与技术交流的方式。探索其突破性功能!

2024 年 5 月 13 日星期一,OpenAI 宣布推出其新的旗舰模型GPT-4o,其中的 "o "代表 "omni"。GPT-4o是一种先进的多模态人工智能模型,用于实时文本、音频和视觉交互,提供更快的处理速度、多语言支持和更高的安全性。

它带来了前所未有的人工智能生成功能。基于ChatGPT 的对话优势,GPT-4o 的功能标志着人们在如何看待人工智能方面向前迈出了一大步。现在,我们可以像与真人对话一样与 GPT-4o 交谈。让我们深入了解一下 GPT-4o 的具体功能!

了解 GPT-4o

OpenAI 的春季更新显示,GPT-4o 与 GPT-4 一样智能,但处理数据的速度更快,处理文本、视觉和音频的能力更强。与之前发布的侧重于让模型更智能的版本不同,这次发布的版本考虑到了让普通用户更容易使用人工智能的需要。 

图 1.OpenAI 的春季更新

ChatGPT去年年底发布的语音模式涉及三个不同的模型,它们共同转录语音输入,理解并生成书面回复,以及将文本转换为语音,以便用户可以听到回复。这种模式存在延迟问题,而且感觉不是很自然。GPT-4o 可以一次性处理文本、图像和音频,让用户感觉自己是在进行自然对话。 

此外,与语音模式不同的是,你现在可以在 GPT-4o 说话时打断它,它会像人一样做出反应。它会暂停并倾听,然后根据你所说的话做出实时回应。它还可以通过语音表达情绪,并能听懂你的语气。 

令人兴奋的 GPT-4o 功能

GPT-4o 的模型评估显示了它的先进性。最有趣的结果之一是,与 Whisper-v3 相比,GPT-4o 极大地提高了所有语言的语音识别能力,尤其是那些不常用的语言。 

音频 ASR(自动语音识别)性能衡量的是一个模型将口语转录为文本的准确程度。GPT-4o 的性能是通过字词错误率(WER)来跟踪的,它显示了错误转录的字词百分比(WER 越低表示质量越好)。下图显示了 GPT-4o 在不同地区的较低 WER,证明了它在改善资源较少语言的语音识别方面的有效性。

图 2.GPT-4o 在多语言语音识别方面表现出色。

下面我们来看看 GPT-4o 的更多独特功能:

  • 更快--速度是 GPT-4 Turbo 的两倍。它能在短短 232 毫秒内响应音频输入,与人类对话的响应时间相近。
  • 成本效益高 - API 版本的 GPT-4o 比 GPT-4 Turbo 便宜 50%。
  • 记忆力 - GPT-4o 能够在不同的对话中保持意识。它能记住您在不同聊天中谈论的内容。
  • 多语种 - GPT-4o 经过培训,可使用 50 种不同语言提高速度和质量。

GPT-4o 的功能举例

现在,您可以拿出手机上的 GPT-4o,打开摄像头,像对待朋友一样让 GPT-4o 根据您的面部表情猜测您的心情。GPT-4o 可以通过摄像头看到你,并回答你的问题。

图 3.GPT-4o 通过视频了解人的情绪。

你甚至可以用它来帮助你解决数学问题,通过视频向 GPT-4o 展示你正在写的内容。或者,你也可以分享自己的屏幕,让它成为可汗学院的辅导员,让你指出几何中三角形的不同部分,如下图所示。

图 4.GPT-4o 在可汗学院上充当辅导员。

除了帮助孩子们学习数学,开发人员还可以与 GPT-4o 进行对话,以调试他们的代码。这要归功于ChatGPT 作为桌面应用程序的推出。如果你在与桌面 GPT-4o 语音应用程序对话时使用 CTRL "C "选中并复制你的代码,它就能读取你的代码。或者,你也可以用它来翻译不同语言开发人员之间的对话。 

GPt-4o 的可能性似乎无穷无尽。OpenAI 最有趣的演示之一是用两部手机展示 GPt-4o 与自身的不同实例对话并一起唱歌。

图 5.人工智能与人工智能对话和唱歌。

GPT-4o 应用

如演示所示,GPT-4o 可以让视力障碍者更容易接近世界。它可以帮助他们更安全、更独立地进行互动和移动。例如,用户可以打开视频,向 GPT-4o 展示街道的景象。然后,GPT-4o 可以提供环境的实时描述,如识别障碍物、阅读路标或引导他们到达特定地点。GPT-4o 甚至可以在出租车接近时发出警报,帮助他们叫车。

图 6.GPT-4o 提示出租车靠近。

同样,GPT-4o 的先进功能也能改变各行各业。在零售业,它可以通过提供实时帮助、回答询问以及帮助客户在网上和店内寻找产品来改善客户服务。比方说,你在货架上找不到自己想要的产品,GPT-4o 可以帮助你。 

医疗保健领域,GPT-4o 可以通过分析病人数据来协助诊断,根据症状提出可能的病症,并就治疗方案提供指导。它还可以通过汇总病人记录、快速查阅医学文献,甚至提供实时语言翻译,与讲不同语言的病人进行交流,为医疗专业人员提供支持。这些只是其中的几个例子。GPT-4o 的应用通过提供量身定制的情境感知帮助,打破信息和交流障碍,让日常生活变得更加轻松。

GPT-4o 和型号安全

与影响了数亿人生活的前几个版本的 GPT 一样,GPT-4o 可能会在全球范围内与实时音频和视频进行交互,因此安全是这些应用的关键因素。OpenAI 在构建 GPT-4o 时非常谨慎,重点关注降低潜在风险。

为确保安全性和可靠性,OpenAI 实施了严格的安全措施。这些措施包括过滤训练数据、在训练后完善模型行为,以及采用新的安全系统管理语音输出。此外,GPT-4o 还经过了 70 多位外部专家的广泛测试,这些专家涉及的领域包括社会心理学、偏见与公平性以及错误信息等。外部测试可确保识别并解决新功能带来或扩大的任何风险。

为了保持较高的安全标准,OpenAI 将在未来几周内逐步发布 GPT-4o 的功能。通过分阶段推出,OpenAI 可以监控性能、解决任何问题并收集用户反馈。采取谨慎的方法可确保 GPT-4o 在提供先进功能的同时,保持最高的安全和道德使用标准。

亲自体验 GPT-4o

GPT-4o 可免费使用。要体验上述实时对话功能,可以直接从Google Play Store 或 Apple App Store 下载ChatGPT 应用程序到手机上。 

登录后,点击屏幕右上角的三个点,就能从显示的列表中选择 GPT-4o。导航到启用了 GPT-4o 的聊天工具后,点击屏幕左下角的加号,就能看到多个输入选项。在屏幕右下角,你会看到一个耳机图标。选择耳机图标后,系统会询问你是否愿意体验免提版的 GPT-4o。同意后,您就可以试用 GPT-4o,如下图所示。

图 7.在ChatGPT 移动应用程序上试用 GPT-4o。

如果您想将 GPT-4o 的高级功能集成到自己的项目中,可将其作为API提供给开发人员。通过它,您可以将 GPT-4o 强大的语音识别、多语言支持和实时会话能力整合到您的应用程序中。通过使用 API,您可以增强用户体验,构建更智能的应用程序,并将最前沿的人工智能技术引入不同领域。

GPT-4o:还不是人类

虽然 GPT-4o 比以前的人工智能模型先进得多,但必须记住,GPT-4o 也有自己的局限性。OpenAI 提到,它有时会在说话时随机切换语言,从English 切换到法语。他们还看到 GPT-4o 在不同语言之间出现错误翻译。随着越来越多的人试用该模型,我们将了解 GPT-4o 的优势和需要进一步改进的地方。

底线

OpenAI 的 GPT-4o 凭借其先进的文本、视觉和音频处理技术,为人工智能打开了一扇新的大门,提供自然的、类似人类的交互。它在速度、成本效益和多语言支持方面表现出色。GPT-4o 是教育、无障碍和实时辅助的多功能工具。随着用户对 GPT-4o 功能的探索,反馈将推动其不断发展。GPT-4o 证明,人工智能正在真正改变我们的世界,成为我们日常生活的一部分。 

探索我们的GitHub 存储库 ,加入我们的社区,深入了解人工智能。访问我们的解决方案页面,了解人工智能如何改变制造业农业等行业。

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅