AI作画新高度！谷歌发布imagen，效果惊艳全场

AI作画新高度！谷歌发布imagen，效果惊艳全场

2025-01-01 19:24

文 | 梦晨鱼羊发自凹非寺
源 | 量子位

在让AI搞创作这件事上，谷歌和OpenAI正面刚起来了。

而让网友们直呼“DALL·E 2这就过时了？”的，还不只是这种正面PK的刺激。

比如《一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像，他身后的墙上还有一幅画了鲜花的画》…（啊先让我喘口气）

吃瓜群众们立刻就想到一块去了。

具体详情，我们一起接着往下看。

文本到图像生成我们之前介绍过不少，基本都是一个套路：

CLIP负责从文本特征映射到图像特征，然后指导一个GAN或扩散模型生成图像。

但谷歌Imagen这次有个颠覆性的改变——

使用纯语言模型只负责编码文本特征，把文本到图像转换的工作丢给了图像生成模型。

语言模型部分使用的是谷歌自家的T5-XXL，训练好后冻结住文本编码器。

T5-XXL的C4训练集包含800GB的纯文本语料，在文本理解能力上会比用有限图文对训练的CLIP要强。

首先，增加无分类器引导（classifier-free guidance）的权重可以改善图文对齐，但会损害图像保真度。

第三，对扩散模型的经典结构U-Net做了改进，新的Efficient U-Net改善了内存使用效率、收敛速度和推理时间。

对语言理解和图像生成都做出改进之后，Imagen模型作为一个整体在评估中也取得了很好的成绩。

当时，吴恩达、Keras之父等一众大佬都纷纷转发、点赞，DALL·E甚至被称为2021年第一个令人兴奋的AI技术突破。

DALL·E 2刚发布的时候就有网友发起一个投票，问多长时间会出现新的SOTA。

随着AI画画效果越来越强大，受众范围也不断扩大，突破技术圈进入大众视野。

出于AI伦理、公平性等方面考虑，DALL·E 2和Imagen都没有直接开源或开放API。

现在想体验Imagen的话，有一个在线Demo演示。

Demo地址：
https://gweb-research-imagen.appspot.com

论文地址：
https://gweb-research-imagen.appspot.com/paper.pdf

加入卖萌屋NLP、CV与搜推广与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各大顶会论文集！
以上就是本篇文章【AI作画新高度！谷歌发布imagen，效果惊艳全场】的全部内容了，欢迎阅览！文章地址：http://ww.kub2b.com/news/18347.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多