相关动态
智源公布大模型“成绩单”:国产多模态提速,GPT-4o视觉语言模型第一
2024-12-30 06:54

AI未来指北特约作者 苏扬

编辑 郑可君

智源研究院(以下简称智源)于12月19日公布了最新一期Flageval大模型评测榜单,结果显示语言模型的能力趋于稳定,国产多模态模型能力则在快速进化。

Flageval是智源2023年6月上公布的体系,目前已覆盖800+开源、闭源模型以及90多个评测数据集和200万条评测题目。此次评测覆盖国内外100余个开源、闭源的语言、视觉语言、文生图、文生视频、语音语言大模型。

评测覆盖国内外40多个模型,主客观评测总计2.2万道题目,字节Doubao-pro-32k-preview和OpenAI o1 mini-2024-09-12分别在主观(含价值观)、客观(不含价值观)评测中排行第一

智源研究院副院长、总工程师林咏华强调,语言模型主观评测仅评测对话模型,重点考察模型的中文能力,“语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务上的表现,国内头部语言模型仍然与国际一流水平存在显著差距。”

多模型(以文字、图片等多模态信息输入,以文本输出)评测,总计采用了2.5万道题目,涉及40个模型,OpenAI GPT-4o-2024-11-20位列第一。

该项评测下排名前5的模型当中,开源模型仅有阿里巴巴Qwen2-VL-72B-Instruct一家。“开源模型数量大增,但商业机构的闭源模型发展速度超过开源模型。”林咏华说。

林咏华在演讲中透露,“较好的开源模型在图文理解任务上,正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别,以及复杂图文数据分析能力仍有提升空间。”

文生图、文生视频多模态模型评测当中,腾讯Hunyuan Image与快手可灵1.5(高品质)分别位居第一,两项评测排名前5均为闭源模型。

林咏华表示,“互联网大厂,尤其短视频大厂,得益于海量高质数据,在文生图、文生视频上进步明显,且第一梯队模型能力接近。”

对于文生图模型,林咏华表示今年上半年参评的模型普遍无法生成正确的中文文字,此次头部模型已经具备该能力,但她也强调复杂场景,复杂数量关系等生成上仍然存在问题。“(参评模型)普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。”

而对于文生视频模型,林咏华强调:“画质提升、动态性强,转场流畅,但普遍存在大幅度动作变形、无法理解物理规律、穿模等问题。”

林咏华表示,“因为采用的是无监督学习,所以(我们)不只是发布评测结果,也是对模型能力的探索。”

在林咏华看来,语言模型已经从基础能力攀升,进入复杂应用落地的阶段,而多模态模型的能力明显比上半年优秀,但目前仍然处于能力攀升阶段。

为了确保评测的客观公正,智源表示目前已经就Flageval的评测方法与工具与全国10余家高校和机构合作,为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。

智源强调称开源模型均采用模型发布方推荐的推理代码及运行环境,同时采用统一通用的提示词。在文生视频主观能力、语音大模型能力等评测专项当中,都引入了专家评估团队,且所有人工评测均为多人评价拟合的结果,主观评测每题至少3人阅卷,文生视频则至少有7人阅卷。

尽管在客观、公正上做了大量前置准备,林咏华也不否认目前评测存在的局限性,包括范围局限、时间局限、数据局限等,“中文评测数据的广度、多样性都不如英文,全球学界和开源社区发布的大量数据集都还是英文。”

智源公布大模型“成绩单”:国产多模态提速,GPT-4o视觉语言模型第一

公开资料显示,类似Flageval的大模型评测体系还包括上海人工智能实验室的司南(OpenCompass 2.0)、信通院的“方升”、HuggingFace上的Open LLM LeaderBoard等。

以司南为例,在今年1月下旬亮相时对外称其试图将模型在知识、语言、理解、推理和考试等五大能力维度的表现进行量化,其2023年度大模型评测榜单显示,GPT-4 Turbo从150多个模型当中脱颖而出,在各项评测中均获最佳表现。

    以上就是本篇文章【智源公布大模型“成绩单”:国产多模态提速,GPT-4o视觉语言模型第一】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/16175.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
Shams:如果火箭季后赛早早被淘汰 他们很可能会积极追求杜兰特
直播吧04月17日讯 今日ESPN名记Shams Charania做客节目《NBA COUNTDOWN》中谈到了火箭追逐KD的可能性。Shams表示:“如果球队能
手机是什么时候出现的手机是哪个国家发明的「手机是什么时候出现的」
手机,这个如今几乎人手一部的通讯工具,其发展历程漫长而有趣。要追溯其起源,我们需要回到上世纪初。一、早期探索阶段早在20世
再建新厂、增加注资、积极纳税 北京税企协同共建优质营商环境
4月16日,北京市税务局“民企显身手”系列媒体采访活动正式启动。此次活动以“政策落实有力度、服务升级有温度、营商环境有厚度
oppo手机里的记事本在哪里手机记事本在哪里「oppo手机里的记事本在哪里」
“盾牌”是古代作战时一种手持格挡,用以掩蔽身体,抵御敌方兵刃、矢石等兵器进攻的防御性兵械,呈长方形或圆形,盾的中央向外凸
个人业务利润降30%,3万亿规模宁波银行也有“烦恼”
文 | 刘振涛资本市场进入财报披露季,上市企业过去一年的成绩令市场高度关注,特别是市场“分红大户”——上市银行的成绩备受关
闽北从观光到沉浸 解锁旅游新体验
  中新网南平4月17日电 (记者 张丽君)依托核心景区武夷山,闽北南平凭借创新的文旅融合模式,实现了从传统观光游到沉浸式深度
重新定义奢华旅游,情绪价值比“钞能力”更重要
【文/观察者网 王勇 编辑/赵乾坤】新加坡“亚洲新闻台”日前报道称,越来越多的千禧一代、Z世代以及来自亚洲和中东等新兴市场的
最便宜的红米手机——红米7A红米手机预定「最便宜的红米手机——红米7A」
5.28号下午,在红米K20系列发布会上,出现了一款史上最便宜的红米手机——红米 7A,售价仅549元起,如此便宜的手机究竟配置如何呢
如何开启手机定位功能,确保精准定位与安全使用手机定位功能在哪里开启「如何开启手机定位功能,确保精准定位与安全使用」
检查手机设置:在设定中找到“隐私”或“位置服务”选项。对于不同品牌的手机,可能会有所不同。例如,iPhone 在设置中有明显的
华为一键测速手机测速「华为一键测速」
华为一键测速有了这款app你就可以实时了解自己的网速了,更为专业强大的技术支撑,还能直接查看网络的各方面信息,各位朋友们尽