生活资讯
AI让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作
2025-01-01 12:58  浏览:88

MOE KLINNS Lab投稿

量子位 | 公众号 QbitAI

AI解放碳基生物双手,甚至能让你的手机自己玩自己!

你没听错——这其实就是移动任务自动化。

在AI飞速发展下,这逐渐成为一个新兴的热门研究领域。

移动任务自动化利用AI精准捕捉并解析人类意图,进而在移动设备(手机、平板电脑、车机终端)上高效执行多样化任务,为那些因认知局限、身体条件限制或身处特殊情境下的用户提供前所未有的便捷与支持。

帮助视障人群用户完成导航、阅读或网上购物

辅助老年人使用手机,跨越数字鸿沟

帮助车主在驾驶过程中完成发送短信或调节车内环境

替用户完成日常生活中普遍存在的重复性任务

……

妈妈再也不嫌重复设置多个日历事项会心烦了。

最近,来自西安交通大学智能网络与网络安全教育部重点实验室 (MOE KLINNS Lab)的蔡忠闽教授、宋云鹏副教授团队(团队主要研究方向为智能人机交互、混合增强智能、电力系统智能化等),基于团队最新AI研究成果,创新性提出了基于视觉的移动设备任务自动化方案VisionTasker。

团队提出了VisionTasker,一个结合基于视觉的UI理解和LLM任务规划的两阶段框架,用于逐步实现移动任务自动化。

该方案有效消除了表示UI对视图层次结构的依赖,提高了对不同应用界面的适应性。

具体实现如下:

1、用户界面理解

VisionTasker通过视觉的方法做UI理解来解析和解释用户界面。

首先Agent识别并分析用户界面上的元素及布局,如按钮、文本框、文字标签等。

然后,将这些识别到的视觉信息转换成自然语言描述,用于解释界面内容。

2、任务规划与执行

接下来,Agent利用大语言模型导航,根据用户的指令和界面描述信息做任务规划。

将用户任务拆解为可执行的步骤,如点击或滑动操作,以自动推进任务的完成。

3、持续迭代以上过程

每一步完成后,Agent都会根据最新界面和历史动作更新其对话和任务规划,确保每一步的决策都是基于当前上下文的。

这是个迭代的过程,将持续进行直到判断任务完成或达到预设的限制。

对于没有文本标签的按钮,利用 CLIP 模型基于视觉设计来推断其可能功能。

随后,系统根据 UI 布局的视觉信息进行区块划分,将界面分割成多个具有不同功能的区块,并对每个区块生成自然语言描述。

这个过程还包括文本与小部件的匹配,确保正确理解每个元素的功能。

最终,所有这些信息被转化为自然语言描述,为大语言模型提供清晰、语义丰富的界面信息,使其能够有效地进行任务规划和自动化操作。

实验评估

实验评估部分,该项目提供了对三种UI理解的比较分析,分别是:

GPT-4V

VH(视图层级)

对比显示,VisionTasker在多个维度上比其他方法有显著优势。

文章还进行了单步预测实验,根据当前的任务状态和用户界面,预测接下来应该执行的动作或操作。

结果显示,VisionTasker在所有数据集上的平均准确率达到了67%,比基线方法提高了15%以上。

真实世界任务:VisionTasker vs 人类

实验过程中,研究人员设计了147个真实的多步骤任务来测试VisionTasker的表现,这些任务涵盖了国内常用的42个应用程序。

团队还评估了VisionTasker在不同条件下的表现,包括使用不同的大语言模型(LLM)和编程演示(PBD)机制。

结论

作为一个基于视觉和大模型的移动任务自动化框架,VisionTasker克服了现阶段移动任务自动化对视图层级结构的依赖。

通过一系列对比实验,证明其在用户界面表现上超越了传统的编程演示和视图层级结构方法。

它在4个不同的数据集上都展示了高效的UI表示能力,表现出更广泛的应用性;并在Android手机上的147个真实世界任务中,特别是在复杂任务的处理上,表现了出超越人类的任务完成能力。

此外,通过集成编程演示(PBD)机制,VisionTasker在任务自动化方面有显著的性能提升。

目前,该工作已以正式论文的形式发表于2024年10月13-16日在美国匹兹堡举行的人机交互顶级会议UIST(The ACM Symposium on User Interface Software and Technology)。

项目链接:https://github.com/AkimotoAyako/VisionTasker

    以上就是本篇文章【AI让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/tnews/4093.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
耐水弹力海棉
产品属性用途区域产品包装、耐水 防潮密度0.02-0.18g/cm3原产地中国,江苏,常州品牌D-Foam形状可根据客户提供图纸生产颜色可根
耐水高强度海棉
产品属性用途区域产品包装、耐水 防潮密度0.02-0.18g/cm3原产地中国,江苏,常州品牌D-Foam形状可根据客户提供图纸生产颜色可根
防潮耐水EVA材料
产品属性用途区域产品包装、耐水 防潮密度0.02-0.18g/cm3原产地中国,江苏,常州品牌D-Foam形状可根据客户提供图纸生产颜色可根
耐油耐水海绵
产品属性用途区域产品包装、耐水 防潮密度0.02-0.18g/cm3原产地中国,江苏,常州品牌D-Foam形状可根据客户提供图纸生产颜色可根
供应耐水海绵
产品属性用途区域产品包装、耐水 防潮密度0.02-0.18g/cm3原产地中国,江苏,常州品牌D-Foam形状可根据客户提供图纸生产颜色可根
看了OPPO、vivo的新旗舰手机样张后,决定还是继续用微单吧
最近,OPPO、vivo都给出了自家旗舰手机的样张,大战一触即发。记得手机圈上一次这么火爆,还是小米15 Ultra的时候。具体来说,当
微信借钱不求人,6个步骤轻松搞定...手机微信怎么借钱「微信借钱不求人,6个步骤轻松搞定...」
微信,作为中国人日常生活中不可或缺的社交软件,不仅满足了人们的沟通需求,还悄然融入了金融服务,其中就包括微信借钱功能。无
小米8系列手机,有它才叫防摔保护手机爆屏「小米8系列手机,有它才叫防摔保护」
手机已成为日常生活必备品,而且小米8陶瓷后盖摔不得,维修的费用都赶上半个手机的钱了,选什么手机壳呢,贼难拆的磨砂硬壳?一
米其林指南开启江苏篇章,“江苏味”如何与世界“双向奔赴”
米其林指南作为餐饮界的“奥斯卡”,关注度高。2024年7月,米其林指南重调评价体系,转为省份榜单评选,并官宣江苏省、福建省成
重磅发布!5.4%!
4月16日,国家统计局发布的数据显示,一季度,在以习近平同志为核心的党中央坚强领导下,各地区各部门认真贯彻落实党中央、国务