智源公布大模型“成绩单”：国产多模态提速，GPT-4o视觉语言模型第一

智源公布大模型“成绩单”：国产多模态提速，GPT-4o视觉语言模型第一

2024-12-30 06:54

AI未来指北特约作者苏扬

编辑郑可君

智源研究院（以下简称智源）于12月19日公布了最新一期Flageval大模型评测榜单，结果显示语言模型的能力趋于稳定，国产多模态模型能力则在快速进化。

Flageval是智源2023年6月上公布的体系，目前已覆盖800+开源、闭源模型以及90多个评测数据集和200万条评测题目。此次评测覆盖国内外100余个开源、闭源的语言、视觉语言、文生图、文生视频、语音语言大模型。

评测覆盖国内外40多个模型，主客观评测总计2.2万道题目，字节Doubao-pro-32k-preview和OpenAI o1 mini-2024-09-12分别在主观（含价值观）、客观（不含价值观）评测中排行第一。

智源研究院副院长、总工程师林咏华强调，语言模型主观评测仅评测对话模型，重点考察模型的中文能力，“语言模型，针对一般中文场景的开放式问答或者生成任务，模型能力已趋于饱和稳定，但是复杂场景任务上的表现，国内头部语言模型仍然与国际一流水平存在显著差距。”

多模型（以文字、图片等多模态信息输入，以文本输出）评测，总计采用了2.5万道题目，涉及40个模型，OpenAI GPT-4o-2024-11-20位列第一。

该项评测下排名前5的模型当中，开源模型仅有阿里巴巴Qwen2-VL-72B-Instruct一家。“开源模型数量大增，但商业机构的闭源模型发展速度超过开源模型。”林咏华说。

林咏华在演讲中透露，“较好的开源模型在图文理解任务上，正在缩小与头部闭源模型的能力差距，而长尾视觉知识与文字识别，以及复杂图文数据分析能力仍有提升空间。”

文生图、文生视频多模态模型评测当中，腾讯Hunyuan Image与快手可灵1.5（高品质）分别位居第一，两项评测排名前5均为闭源模型。

林咏华表示，“互联网大厂，尤其短视频大厂，得益于海量高质数据，在文生图、文生视频上进步明显，且第一梯队模型能力接近。”

对于文生图模型，林咏华表示今年上半年参评的模型普遍无法生成正确的中文文字，此次头部模型已经具备该能力，但她也强调复杂场景，复杂数量关系等生成上仍然存在问题。“（参评模型）普遍存在复杂场景人物变形的情况，针对常识或知识性推理任务，大于3的数量关系依然无法处理，涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。”

而对于文生视频模型，林咏华强调：“画质提升、动态性强，转场流畅，但普遍存在大幅度动作变形、无法理解物理规律、穿模等问题。”

林咏华表示，“因为采用的是无监督学习，所以（我们）不只是发布评测结果，也是对模型能力的探索。”

在林咏华看来，语言模型已经从基础能力攀升，进入复杂应用落地的阶段，而多模态模型的能力明显比上半年优秀，但目前仍然处于能力攀升阶段。

为了确保评测的客观公正，智源表示目前已经就Flageval的评测方法与工具与全国10余家高校和机构合作，为规避数据集泄露风险以及数据集饱和度问题，本次评测吸纳了近期发布的数据集并持续动态更新评测数据，替换了98%的题目，并提升了题目的难度。

智源强调称开源模型均采用模型发布方推荐的推理代码及运行环境，同时采用统一通用的提示词。在文生视频主观能力、语音大模型能力等评测专项当中，都引入了专家评估团队，且所有人工评测均为多人评价拟合的结果，主观评测每题至少3人阅卷，文生视频则至少有7人阅卷。

尽管在客观、公正上做了大量前置准备，林咏华也不否认目前评测存在的局限性，包括范围局限、时间局限、数据局限等，“中文评测数据的广度、多样性都不如英文，全球学界和开源社区发布的大量数据集都还是英文。”

智源公布大模型“成绩单”：国产多模态提速，GPT-4o视觉语言模型第一

公开资料显示，类似Flageval的大模型评测体系还包括上海人工智能实验室的司南（OpenCompass 2.0）、信通院的“方升”、HuggingFace上的Open LLM LeaderBoard等。

以司南为例，在今年1月下旬亮相时对外称其试图将模型在知识、语言、理解、推理和考试等五大能力维度的表现进行量化，其2023年度大模型评测榜单显示，GPT-4 Turbo从150多个模型当中脱颖而出，在各项评测中均获最佳表现。

以上就是本篇文章【智源公布大模型“成绩单”：国产多模态提速，GPT-4o视觉语言模型第一】的全部内容了，欢迎阅览！文章地址：http://ww.kub2b.com/news/16175.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多