没有GPT-5,没有AI搜索引擎,这次OpenAI2024春季发布会的最重磅产品更新,是最新的旗舰型号模型,GPT-4o。
北京时间5月14日凌晨1点,OpenAI 2024 春季发布会在线上进行了直播。本次发布会共有如下5个主题:
- OpenAI的愿景;
- ChatGPT桌面版及web版本的UI升级;
- GPT-4o模型;
- GPT-4o免费开放;
- GPT-4o的现场实测demo;
可以看出,本次发布会总结来说,重头戏就是最新版的旗舰型号模型,GPT-4o。
一.更自然的语音交互体验
先来看看GPT-4o的官方介绍。
GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
它可以在短至 232 毫秒的时间内响应音频输入,平均时间为 320 毫秒,与人类在正常对话中的响应时间近似。
它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语的其他语言上的文本性能显著提高,同时 API 的速度也更快,成本降低了 50%。
与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
GPT-4o的能力提升,始终围绕着一个关键点:更自然的人机交互方式。
首先,模型最主打的特性就是快速实时的音频响应。
在此前,用户使用ChatGPT的音频交互能力时,平均需要等待2.8秒(GPT-3.5)或 5.4 秒(GPT-4),而GPT-4o将相应时间压缩到了平均320毫秒。
在现场的实际演示中,ChatGPT与用户的交流确实如同人类间的自然对话一样,几乎在用户完成语音输入的同时,ChatGPT就能给出回复。
同时,模型输出的语音结果还具备了语气、语调,甚至能够发出拟声词(比如赞叹、大笑等)。
在测试中,用户让ChatGPT切换了几种不同的语气语调来讲故事,不论是自然语调、戏剧性语调、史诗语调,还是机器人语调,ChatGPT都能快速响应。
在故事结尾,用户命令ChatGPT用唱歌的方式来讲完故事时,ChatGPT立刻就用唱歌的形式进行了输出,将故事的结尾变成一句歌词。
此外,在GPT-4o模型支持下,用户不再需要跟ChatGPT进行对讲机时的线性交互。
在ChatGPT输出语音的同时,用户可以发出新的语音指令来打断ChatGPT“说话”,这时ChatGPT会停止输出,转而听取用户新的指令,并做出响应。
在现场,OpenAI 还现场响应了 twitter上用户提出的尝试要求,让ChatGPT充当同传翻译。
只需要进行简单的语音prompt,ChatGPT就立刻实现了充当一名专业同传人员。
用户说出的指令是:“你现在是一名翻译人员,我和我的朋友在聊天,但是她只会说意大利语,我只会说英语。我需要你在听到英语时,翻译成意大利语;在听到意大利语时,翻译成英语。”
二.让模型“看”世界
除了强大的音频输入输出能力外,GPT-4o还具备了“看”世界的能力。
搭载了GPT-4o的新版ChatGPT App,在页面左下角新增了一个相机的图标。点击后,ChatGPT会打开手机摄像头,实时读取当前摄像头所捕捉到的画面。
在现场演示中,用户请求ChatGPT帮助他解一道数学题。
在一张白纸上写下 3X + 1 = 4 后,打开摄像头对准,ChatGPT几乎立刻就复述了题目。
由于用户的指令是让ChatGPT引导他解出题目,而不是直接告诉他答案,随着用户根据ChatGPT给出的方法逐渐写下新的方程式时,ChatGPT也能立刻给出下一步的提示,直至完成解答。
除了识别数学符号外,现场还演示了识别文字和符号的能力。
在看到手写版文字外加符号的纸后,ChatGPT立刻明白了这句话的含义,甚至还立刻“撒了个娇”。
在本次发布会新推出的桌面版ChatGPT中,一样提供了获取实时视觉信息的能力。
在现场演示中,用户请求ChatGPT帮助他解决一个代码问题。
在全部选中屏幕上的代码后,点击“复制”,再切换到ChatGPT应用中,点击粘贴,ChatGPT几乎立刻就“看到了”用户的全部代码,并给出了分析。
在另一个demo中,用户点击了ChatGPT左下角的电脑显示器图标,ChatGPT中就立刻显示出了用户选中范围内的屏幕上的实时图像。
三.GPT-4o官方参数一览
在产品能力层面,官网在直播后也迅速进行了更新,放出了模型的评估结果和与其他模型的对比结果。
文本处理能力方面,在官方给出的6个维度的测评中,除了最后两项能力之外,其余能力域的测试结果均能取得参与测评的7种模型中的第一。
MGSM能力域与第一的Claude 3 Opus相差很小,DROP能力域为第三名,略微落后GPT-4 Turbo和Llama 3 400b。
(6项能力域从左至右依次为:大规模多任务语言理解MMLU、专业领域能力测试GPQA、数学能力MATH、代码能力Humaneval、多语言小学数学能力MGSM、离散段落推理能力DROP)
在音频翻译和视觉理解能力方面,GPT-4o均取得了测评的第一名。
GPT-4o目前版本拥有128k的上下文处理能力,知识库的更新时间截止到2023年10月。
GPT-4o不仅提供ChatGPT内置版本,同样也开放了API调用的能力。
对比GPT-4 Turbo,新版本的模型API响应速度提升了2倍,价格降低了一半,并且速率限制提升了5倍。
目前官网给出的定价是,每百万输入token 5美元,每百万输出 15美元,而GPT-4 Turbo的价格分别是 10美元和30美元。
四. 何时才能用上
根据官网上给出的信息,GPT-4o模型的全部能力会在之后通过逐步迭代的方式推出。
(原文:GPT-4o’s capabilities will be rolled out iteratively.)
从今天发布会后,OpenAI会优先开放给扩大规模后的红队,首先开始进行试用。
GPT-4o的文字和图像能力,会在发布会后更新进ChatGPT中(截止凌晨3点,ChatGPT暂未进行更新)。
更新后的ChatGPT中,GPT-4o将允许免费用户直接进行使用,而对于订阅了Plus的用户,将会开放比免费用户多5倍的消息限制。
对于本次发布会上重点演示的语音能力——在随后的数周内,搭载了GPT-4o的新版语音模式将会更新至ChatGPT中。
OpenAI此番赶在谷歌I/O大会前一天进行的春季发布会,对比之前大众的预期来说,还是缺少了些力度的。
虽然新版GPT-4o的语音能力足够惊艳,但对比之前放出的各种烟雾弹,GPT-5、AI搜索引擎来说,还是缺少了些重量。