在代码能力方面,ChatGPT展示了对代码的理解和解释能力。它能够通过语音与用户进行交互,并且能够准确地解释代码的用途和函数的作用。
图片来源:ChatGPT截图
最后,OpenAI还回答了一些来自社交媒体的实时提问,比如实时语音翻译和模型是否能够识别用户的表情。
1全能模型 GPT-4o
GPT-4o,o 代表Omnimodel(全能模型)。
GPT-4o是一款面向未来人机交互范式的全新大模型,具备文本、语音和图像三种模态的理解能力,响应速度极快,还能够表达丰富的情感,具有很强的人性化。
在OpenAI的演示现场,工程师们展示了GPT-4o在英语文本和代码上与GPT-4 Turbo相匹配的性能,并且在非英语文本上表现显著提升。同时,API的响应速度也更快,成本降低了50%。特别是在视觉和音频理解方面,GPT-4o表现尤为出色。
该模型能够在232毫秒的时间内响应音频输入,平均响应时长为320毫秒,与人类相似。与此前的模型相比,GPT-4o的平均延迟显著降低。这得益于新的端到端训练模型,使得所有输入和输出都由同一神经网络处理,不再依赖于三个独立模型的pipeline。
此外,GPT-4o还在理解和生成图像方面具有突出的能力,能够解决许多之前看似不可能的任务。它还能够进行3D视觉内容生成,从多个生成的图像进行3D重建。
比如,你可以让它帮忙把 OpenAI 的 logo 印到杯垫上:
图片来源:ChatGPT截图
同时,GPT-4o 还拥有 3D 视觉内容生成的能力,能够从 6 个生成的图像进行 3D 重建:
图片来源:ChatGPT截图
与 GPT-4o 合作,你只需要输入几段文字,就能得到一组连续的漫画分镜:
图片来源:ChatGPT截图
这是一首诗,GPT-4o 可以将其排版为手写样式:
图片来源:ChatGPT截图
而下面这些玩法,应该会让很多设计师有点惊讶,这是一张由两张生活照演变而来的风格化海报:
图片来源:ChatGPT截图
在性能评估方面,GPT-4o在多项基准测试中表现出色,特别是在文本、推理和编码智能方面。在多语言、音频和视觉功能上也实现了新的高度。
总体而言,GPT-4o的推出标志着人机交互技术迈向了一个新的里程碑,为未来更加自然、实时的语音对话和视频交互铺平了道路。
2ChatGPT 用户将免费获得更多高级功能
每周都有超过一亿人使用 ChatGPT,OpenAI 表示 GPT-4o 的文本和图像功能今天开始免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。
现在打开 ChatGPT,我们发现 GPT-4o 已经可以使用了。
图片来源:ChatGPT截图
使用 GPT-4o 时,ChatGPT 免费用户现在可以访问以下功能:体验 GPT-4 级别智能;用户可以从模型和网络获取响应。
此外,免费用户还可以有以下选择 ——
分析数据并创建图表:
图片来源:ChatGPT截图
和拍摄的照片对话:
图片来源:ChatGPT截图
上传文件以获取总结、写作或分析方面的帮助:
图片来源:ChatGPT截图
发现并使用 GPTs 和 GPT 应用商店:
图片来源:ChatGPT截图
以及使用记忆功能打造更有帮助的体验。
不过,根据使用情况和需求,免费用户可以使用 GPT-4o 发送的消息数量会受到限制。当达到限制时,ChatGPT 将自动切换到 GPT-3.5,以便用户可以继续对话。
3新的桌面 app 简化用户工作流程
对于免费和付费用户,OpenAI 还推出了适用于 macOS 的新 ChatGPT 桌面应用程序。通过简单的键盘快捷键(Option + Space),用户可以立即向 ChatGPT 提问,此外,用户还可以直接在应用程序中截取屏幕截图并进行讨论。
图片来源:ChatGPT截图
现在,用户还可以直接从计算机与 ChatGPT 进行语音对话,GPT-4o 的音频和视频功能将在未来推出,通过点击桌面应用程序右下角的耳机图标来开始语音对话。
OpenAI 将向 Plus 用户推出 macOS 应用程序,并将在未来几周内更广泛地提供该应用程序。此外今年晚些时候 OpenAI 会推出 Windows 版本。
ChatGPT真的是越来越强大啦,大家一起用起来~
欢迎大家私信获取《谷歌SEO页面优化清单》