语音交互更自然、让模型“有了眼睛”：OpenAI 推出新模型GPT-4o - 生活服务 - 生活信息

语音交互更自然、让模型“有了眼睛”：OpenAI 推出新模型GPT-4o

2024-12-24 14:13 浏览:127

没有GPT-5，没有AI搜索引擎，这次OpenAI2024春季发布会的最重磅产品更新，是最新的旗舰型号模型，GPT-4o。

北京时间5月14日凌晨1点，OpenAI 2024 春季发布会在线上进行了直播。本次发布会共有如下5个主题：

OpenAI的愿景；
ChatGPT桌面版及web版本的UI升级；
GPT-4o模型；
GPT-4o免费开放；
GPT-4o的现场实测demo；

可以看出，本次发布会总结来说，重头戏就是最新版的旗舰型号模型，GPT-4o。

一.更自然的语音交互体验

先来看看GPT-4o的官方介绍。

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。
它可以在短至 232 毫秒的时间内响应音频输入，平均时间为 320 毫秒，与人类在正常对话中的响应时间近似。
它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语的其他语言上的文本性能显著提高，同时 API 的速度也更快，成本降低了 50%。
与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

GPT-4o的能力提升，始终围绕着一个关键点：更自然的人机交互方式。

首先，模型最主打的特性就是快速实时的音频响应。

在此前，用户使用ChatGPT的音频交互能力时，平均需要等待2.8秒（GPT-3.5）或 5.4 秒（GPT-4），而GPT-4o将相应时间压缩到了平均320毫秒。

在现场的实际演示中，ChatGPT与用户的交流确实如同人类间的自然对话一样，几乎在用户完成语音输入的同时，ChatGPT就能给出回复。

同时，模型输出的语音结果还具备了语气、语调，甚至能够发出拟声词（比如赞叹、大笑等）。

在测试中，用户让ChatGPT切换了几种不同的语气语调来讲故事，不论是自然语调、戏剧性语调、史诗语调，还是机器人语调，ChatGPT都能快速响应。

在故事结尾，用户命令ChatGPT用唱歌的方式来讲完故事时，ChatGPT立刻就用唱歌的形式进行了输出，将故事的结尾变成一句歌词。

此外，在GPT-4o模型支持下，用户不再需要跟ChatGPT进行对讲机时的线性交互。

在ChatGPT输出语音的同时，用户可以发出新的语音指令来打断ChatGPT“说话”，这时ChatGPT会停止输出，转而听取用户新的指令，并做出响应。

在现场，OpenAI 还现场响应了 twitter上用户提出的尝试要求，让ChatGPT充当同传翻译。

只需要进行简单的语音prompt，ChatGPT就立刻实现了充当一名专业同传人员。

用户说出的指令是：“你现在是一名翻译人员，我和我的朋友在聊天，但是她只会说意大利语，我只会说英语。我需要你在听到英语时，翻译成意大利语；在听到意大利语时，翻译成英语。”

二.让模型“看”世界

除了强大的音频输入输出能力外，GPT-4o还具备了“看”世界的能力。

搭载了GPT-4o的新版ChatGPT App，在页面左下角新增了一个相机的图标。点击后，ChatGPT会打开手机摄像头，实时读取当前摄像头所捕捉到的画面。

在现场演示中，用户请求ChatGPT帮助他解一道数学题。

在一张白纸上写下 3X + 1 = 4 后，打开摄像头对准，ChatGPT几乎立刻就复述了题目。

由于用户的指令是让ChatGPT引导他解出题目，而不是直接告诉他答案，随着用户根据ChatGPT给出的方法逐渐写下新的方程式时，ChatGPT也能立刻给出下一步的提示，直至完成解答。

除了识别数学符号外，现场还演示了识别文字和符号的能力。

在看到手写版文字外加符号的纸后，ChatGPT立刻明白了这句话的含义，甚至还立刻“撒了个娇”。

在本次发布会新推出的桌面版ChatGPT中，一样提供了获取实时视觉信息的能力。

在现场演示中，用户请求ChatGPT帮助他解决一个代码问题。

在全部选中屏幕上的代码后，点击“复制”，再切换到ChatGPT应用中，点击粘贴，ChatGPT几乎立刻就“看到了”用户的全部代码，并给出了分析。

在另一个demo中，用户点击了ChatGPT左下角的电脑显示器图标，ChatGPT中就立刻显示出了用户选中范围内的屏幕上的实时图像。

三.GPT-4o官方参数一览

在产品能力层面，官网在直播后也迅速进行了更新，放出了模型的评估结果和与其他模型的对比结果。

文本处理能力方面，在官方给出的6个维度的测评中，除了最后两项能力之外，其余能力域的测试结果均能取得参与测评的7种模型中的第一。

MGSM能力域与第一的Claude 3 Opus相差很小，DROP能力域为第三名，略微落后GPT-4 Turbo和Llama 3 400b。

（6项能力域从左至右依次为：大规模多任务语言理解MMLU、专业领域能力测试GPQA、数学能力MATH、代码能力Humaneval、多语言小学数学能力MGSM、离散段落推理能力DROP）

在音频翻译和视觉理解能力方面，GPT-4o均取得了测评的第一名。

GPT-4o目前版本拥有128k的上下文处理能力，知识库的更新时间截止到2023年10月。

GPT-4o不仅提供ChatGPT内置版本，同样也开放了API调用的能力。

对比GPT-4 Turbo，新版本的模型API响应速度提升了2倍，价格降低了一半，并且速率限制提升了5倍。

目前官网给出的定价是，每百万输入token 5美元，每百万输出 15美元，而GPT-4 Turbo的价格分别是 10美元和30美元。

四. 何时才能用上

根据官网上给出的信息，GPT-4o模型的全部能力会在之后通过逐步迭代的方式推出。

语音交互更自然、让模型“有了眼睛”：OpenAI 推出新模型GPT-4o

（原文：GPT-4o’s capabilities will be rolled out iteratively.）

从今天发布会后，OpenAI会优先开放给扩大规模后的红队，首先开始进行试用。

GPT-4o的文字和图像能力，会在发布会后更新进ChatGPT中（截止凌晨3点，ChatGPT暂未进行更新）。

更新后的ChatGPT中，GPT-4o将允许免费用户直接进行使用，而对于订阅了Plus的用户，将会开放比免费用户多5倍的消息限制。

对于本次发布会上重点演示的语音能力——在随后的数周内，搭载了GPT-4o的新版语音模式将会更新至ChatGPT中。

OpenAI此番赶在谷歌I/O大会前一天进行的春季发布会，对比之前大众的预期来说，还是缺少了些力度的。

虽然新版GPT-4o的语音能力足够惊艳，但对比之前放出的各种烟雾弹，GPT-5、AI搜索引擎来说，还是缺少了些重量。

以上就是本篇文章【语音交互更自然、让模型“有了眼睛”：OpenAI 推出新模型GPT-4o】的全部内容了，欢迎阅览！文章地址：http://ww.kub2b.com/tnews/241.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多