游戏 Agent,则是看起来最有趣的一个演示。
Google 特意提到,Gemini 2.0 可以理解 Android 手机的屏幕分享和用户的语音,直接做到演示中的内容,不需要额外的后训练。
演示中,用户分享正在玩的手机屏,并用语音和 Agent 沟通,游戏 Agent 直接给出了接下来的最佳策略。
Google 表示目前正在和《部落冲突》、《海岛奇兵》等游戏做合作,帮助 Agent 理解游戏规则。同时 Agent 也会自己实时上网查找,来理解游戏规则给出最好的策略。
这个功能也可以说很炸裂了。对于纯策略型游戏,这个外挂可有点太厉害了——随着 AI 的进展,人脑对策略的理解恐怕没有办法和 AI 抗衡。或者说,或许只有最顶尖的大脑可以和 AI 相抗衡。
Gemini2.0 目前并没有对全部用户开放,Google 表示目前正在将 2.0 开放给开发者以及受信任的测试人员。这意味着以上的 Agent 功能,到用户真正能够使用,仍然有一段时间。不过此次演示仍然令人兴奋。
未来 Gemini 2.0 上线,Google 大概率也不会首发上述的 Agent 功能,而是将先将其融入 Gemini 和搜索功能。
Google 之前已经在探索将 AI 引入其搜索功能中。10 月,Google 曾经宣布,其搜索中的 AI 概述功能每月获得了 10 亿用户的使用。未来 Google 计划把 Gemini 2.0 的高级推理能力引入 AI 概述,以应对更复杂的话题和多步骤问题,包括高级数学方程式、多模态查询和编码。
此外,除了探索虚拟世界的智能体能力外,Google 还打算将 Gemini 2.0 的空间推理能力应用于机器人领域,尝试让 Agent 在现实世界中提供帮助。
02
Gemini Flash 常规更新
那么用户实际上能够马上使用的模型是什么?
答案是 Gemini 2.0 Flash。
作为 Google 大号模型蒸馏而来的小号模型,Gemini 2.0 Flash(对话优化版本)将成为 Google Gemini 中的默认使用模型。
Google 还推出了一项名为「深度研究」的新功能,该功能利用高级推理和长上下文能力作为研究助手,可以探索复杂主题并编制报告,今天在 Gemini 高级版中可用。
Gemini 2.0 Flash 的能力较上一代有明显提升,相当于上一代模型的 Pro 版本的能力。
同时作为 2.0 模型家族的一员,Gemini 2.0 Flash 也支持支持图片、视频和音频等多模态输入,2.0 Flash 现在还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音 (TTS) 音频。它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。
03
Project Astra:为 Google Glasses 准备的模型,拥有无限记忆?
Google 此次还重点介绍了 Project Astra,为其推出了以下改进:
·更流畅的对话:Project Astra 现在可以在多种语言和混合语言之间进行对话,并且能够更好地理解不同口音和生僻单词。
·新工具的使用:借助 Gemini 2.0,Project Astra 可以使用 Google Search、Google Lens 和 Google Maps,从而在日常生活中更好地发挥助手作用。
·更强的记忆力:我们增强了 Project Astra 的记忆能力,同时确保你可以掌控对话。现在,它最多可以记住长达 10 分钟的会话内容,并且可以回忆起过去与它进行的更多对话,以便为您提供更好的个性化服务。
·更低的延迟:借助新的流式处理技术和原生音频理解能力,该智能体能够以近于人类对话的延迟来理解语言。
Google Astra 是 Google 为了眼镜项目所做的前瞻项目。
从 meta 和 Ray-ban 的合作眼镜开始,国内外的不少公司,已经又在重新探索眼镜作为新一代智能硬件的潜力。
此次 Google 重大更新之一,是记忆能力。在外网采访中,DeepMind 的 CEO Demis Hassabis 表示,在 Gemini 1.5 时代,内部测试中,已经将其上下文窗口扩展到了 1000 万个 token 以上。目前已经模型几乎可以做到无限记忆。
但是代价就是速度。记忆越长,搜索相关记忆的成本越高,速度越低。不过 Demis Hassabis 认为,接下来相当短的时间内,我们将真正拥有无限长的上下文。
而这对于 Google 真正想做的助手而言是极其重要的。Demis Hassabis 形容未来世界:「你在电脑上使用这一助手,然后你走出家门,戴上眼镜,或者使用手机,它一直都在。它能够记住会话以及你想要做什么,真正个性化。我们人类无法记住所有事情,而AIvu u会记住所有事情,来给你以灵感和新的规划。」
04
Agent 时代已来?
从去年开始,就陆续有人指出 Agent 是 AI 发展的未来。
不过,在过去一年中,Agent 这个词的使用相对比较沉寂,甚至有时候被偷换概念当成 AI 应用来使用。
但是在今年年末,我们终于开始看到了相对可喜的进展。
首先是 Anthropic,推出电脑使用的 Agent 模式。
国内的智谱 AI,也推出了一个手机 Agent 替用户操作微信等 App 的的演示视频。
明年的 OpenAI 与苹果合作的 Apple Intelligence,目前仍然不确定全貌。很多人期待它将让许多用户第一次在手机上体会到简单的 Agent 功能到底能如何帮助我们提升生产力。
而现在我们又看到 Google 推出的浏览器 Agent 和安卓手机上的 Agent 使用演示。
Agent 技术依然面临诸多挑战。人们会担忧误操作可能带来的安全隐患,会担心隐私,会担心一系列风险。
但同时,对于普通用户而言,Agent 才是最具「AI 感」的技术。全自动的任务完成,像魔法一般,不需要任何技术背景,直接就能提升工作效率和使用体验。
Agent 能力的提升,也为一个新的智能硬件真正进入人们生活打下了基础——只有发出语音指令,眼镜能直接自动完成部分任务的时候,许多任务才会逐渐从手机转移至新的智能硬件终端。
或许真的如 Google AI Studio 的产品负责人 Logan Kilpatrick 今天早些时候所言:未来,是 Agent 的时代。
*头图来源:Google
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问