相关动态
文生视频“混战”:腾讯、字节纷纷入局
2024-12-17 07:12

文生视频“混战”:腾讯、字节纷纷入局

转自:中国经营网

本报记者 李昆昆 李正豪 北京报道

近日,腾讯混元大模型公布最新进展:正式上线视频生成能力,这是其继文生文、文生图、3D生成之后的又一新的里程碑。其实,就在最近,字节跳动也发布了视频生成模型PixelDance和Seaweed,在AI创作平台即梦AI正式上线,面向公众免费开放使用。

盘古智库高级研究员江瀚在接受《中国经营报》记者采访时表示:“从技术进步的角度来看,腾讯和字节跳动在视频生成大模型领域的投入与成果,展示了AI技术的飞速发展。从市场竞争的角度来看,随着腾讯、字节跳动等巨头的加入,视频生成大模型领域的竞争将更加激烈。”

大厂进军文生视频

“用户只需要输入一段描述即可生成视频。”腾讯混元相关负责人向记者说,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前API(应用程序接口)同步开放内测申请。

腾讯方面介绍称,腾讯混元生成视频大模型可以实现超写实画质、生成高度符合提示词的视频画面,画面流畅不易变形。比如在冲浪、跳舞等大幅度运动画面的生成中,腾讯混元可以生成流畅、合理的运动镜头,物体不易出现变形;光影反射基本符合物理规律,在镜面或者照镜子场景中,可以做到镜面内外动作一致。同时,模型还可以实现在画面主角保持不变的情况下自动切镜头,这是业界大部分模型目前所不具备的能力。

据介绍,混元视频生产模型基于跟Sora类似的DiT架构,并在架构设计上进行多处升级。混元视频生成模型适配了新一代文本编码器来提升语义遵循,其具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换;通过先进的图像视频混合VAE(3D变分编码器),让模型在细节表现上有明显提升,特别是人脸、高速镜头等场景。

记者采访字节跳动方面关于其文生视频产品的最新进展及未来发展相关问题,截至发稿前,对方尚未回复。其公开资料显示,今年9月底,字节跳动发布豆包模型家族的两款视频生成模型Pixeldance和Seaweed,并通过即梦AI、火山引擎分别面向创作者和企业客户小范围邀测。当PixelDance生成10秒视频时,切换镜头3—5次的效果最佳,场景和角色能保持很好的一致性。通过小幅度、渐进式的提示词描述,PixelDance能生成魔术般的特效。此外,用户还可使用时序提示词、长镜头等技巧,增强视频的复杂度和表现力,对剧情创作有帮助。

Seaweed模型则在图生视频场景体现出较好的首帧一致性,可以保持与用户输入图的一致性、色彩等细节还原,实现大幅度运动画面流畅自然,具有视觉美感和真实感。

据了解,字节跳动在文生视频方面也是采用了DiT架构,在大幅度运动画面表现流畅自然。经过剪映、即梦AI等业务场景打磨和持续迭代,豆包视频生成模型具备专业级的光影布局及色彩调和能力,画面视觉具有美感和真实感。

已成“混战”局面

在今年8月发布的研报里提到,在AI渗透率为15%的中性假设下,中国AI视频生成行业的潜在空间为3178亿元;在全AI模式下,电影、长剧、动画片和短剧的制作成本,相较传统模式将下降超95%。

除了腾讯、字节跳动,国内其他一些公司也在发力文生视频。比如在10月举行的“2024中国计算机大会”上,快手副总裁、大模型团队负责人张迪透露,自今年6月发布以来,快手可灵AI已有超过360万用户,累计生成3700万个视频以及超过1亿张图片。11月8日,“AI六小龙”之一的智谱AI对其视频生成工具清影进行升级。更早之前,8月31日,MiniMax发布了其首款AI高清视频生成模型技术abab-video-1。

国外方面,12月10日凌晨,OpenAI宣布旗下视频生成模型Sora正式面向大众推出。自今年2月首次预告以来,Sora仅向一些艺术家、知名演员和导演提供试用服务,但迟迟未上线,吊足大众胃口。如今正式落地,引发关注。

与上一个版本相比,此次的Sora Turbo支持生成1080p分辨率、最长20秒的视频,在时长上有明显增长。更大的亮点在于它提供“编辑”服务,除了单纯的文生视频、图生视频、视频生视频外,用户还可以通过指令实现视频重混、重新剪辑、循环、混合等功能,更像是一个加强版的视频编辑器。

早在Sora发布之前,2023年1月起,Runway、Genmo、英伟达、Pika等海外公司都发布了AI 视频生成和多模态技术产品。而随着Sora爆火,AI+视频技术和产品正在迅猛升级迭代,诸如电影、广告、视频剪辑、视频流媒体平台、UGC(用户生成内容)创作平台、短视频综合平台等众多行业有望受益。

业内人士认为,与创业公司相比,腾讯、字节跳动这种大厂数据等资源比较丰富,又有流量支持,商业化进程会比较快一些。

江瀚向记者说,这种竞争不仅体现在技术层面,还体现在应用场景的拓展和商业化模式的探索上。目前,虽然视频生成技术还未到大规模商用的阶段,但腾讯、字节跳动已经看到了其在工业级商业场景中的应用潜力,如广告宣传、动画制作、创意视频生成等。随着技术的不断成熟和应用场景的拓展,视频生成大模型将成为企业数字化转型和智能化升级的重要工具,市场前景广阔。

今年6月,继好莱坞编剧在大罢工中要求限制AI撰写剧本之后,代表好莱坞演员权益的美国电视和广播艺人联合会(SAG-AFTRA)表示,AI在影视行业确有用武之地,但必须在演员同意并付费的前提下使用,譬如在计算机生成的动作、表情捕捉画面上,“AI应该是辅助、增强人类,而不是取代人类”。

    以上就是本篇文章【文生视频“混战”:腾讯、字节纷纷入局】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/5767.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
智能家居“伪智能”、直播间买到的羽绒服穿不了……江苏一季度消费投诉热点出炉
4月9日,江苏省消费者权益保护委员会发布2025年一季度消费投诉及舆情热点报告。一季度全省消保委系统受理投诉51464件,接待消费
智能手机传感器及作用大盘点手机的作用「智能手机传感器及作用大盘点」
已经成为不可思议的小机器,几十年前,这样的设备只存在于科幻小说。如果回到几十年前,人们可能会认为是魔法。现在已经成为最普
您知道唐僧师徒在南通长牌中分别是谁吗?
《西游记》中,猪八戒与孙悟空对峙打斗时,曾经这样说“放生遭贬出天关,福陵山下图家业。我因有罪错投胎,俗名唤做猪刚鬣”,这
【华为】新版模拟器eNSP Lite安装攻略提前解锁华为手机模拟器「【华为】新版模拟器eNSP Lite安装攻略提前解锁」
新版模拟器eNSP Lite资源下载:华为新版模拟器eNSPLite镜像资源资源-CSDN文库    最近华为发布了新版模拟器eNSP Lite
Android监控虚拟键 android手机虚拟摄像头手机IM「Android监控虚拟键 android手机虚拟摄像头」
在工作中,camera这一块上,可能会有各种各样的需求。比如有人想新增一个虚拟摄像头,当用户app打开摄像头设备时,打开的不是系
微信语音怎么提取到电脑【苹果安卓手机】苹果手机备份到电脑「微信语音怎么提取到电脑【苹果安卓手机】」
微信语音中可能保存着一些温馨记忆,如年迈父母发给自己的语音消息,微信语音中也可能保存着知识技能,如培训老师发给自己的各种
修成正果!安东尼已被通知入选2025年奈史密斯篮球名人堂
北京时间4月3日讯 据Shams Charania报道,十次入选NBA全明星的卡梅隆·安东尼已获通知,他被选入2025年奈史密斯篮球名人堂。曾六
在任意手机上使用带有图形化界面(GUI)的完整Linuxlinux手机「在任意手机上使用带有图形化界面(GUI)的完整Linux」
不过,在我们今天的任务中只有运行者两者。这篇教程不会讲述任何运行后的自定义使用。不同于之前的两次尝试——安装Window
腾讯史上最大就业计划技术岗超六成,大厂加码AI人才校招
4月17日,腾讯宣布启动史上最大就业计划,三年内将新增28000个实习岗位并加大转化录用,仅2025年将迎来10000名校招实习生。在大
纪律处罚消息两则:海港主教练穆斯卡特停赛1场罚款1万 & 广东男篮外援莫兰德罚款3万
各CBA俱乐部、赛区:2025年4月8日,2024-2025赛季CBA联赛季后赛12进8阶段场序467,上海久事大鲨鱼俱乐部久事篮球队与广东宏远华