生活资讯
【人工智能前沿弄潮】——生成式AI系列:扩散模型及稳定扩散模型
2024-12-24 23:36  浏览:106

VAE、GAN的出现,使得生成式AI越发火热,如今扩散模型的出现与兴起,更是将AIGC推到了人工智能风口,被视作如今人工智能生成艺术领域取得突破的主要因素。相较于VAE和GAN,扩散模型生成的图片质量更好。随着transformer架构的出现和prompt工程的兴起,根据文本提示生成图像的技术已经越发成熟,稳定扩散模型的出现和发展使得我们可以轻松地通过文本提示创建美妙的艺术插图。所以在本文中,我将解释它们是如何工作的,本次不会堆砌复杂的公式,而是用通俗的语言解释扩散模型以及稳定扩散模型的工作原理。

如下图所示,与GAN 利用生成器和判别器进行对抗训练来生成图像不同,扩散模型则是通过对生成的随机噪声进行循环去噪来生成图像,就有点像雕刻一样,一块原石,随着大师一点一点地去除掉多余的部分,剩下的就是完美的艺术品。所使用的随机噪声需要和生成的目标图像具有相同的高宽。

在扩散模型的去噪过程中,去噪的步骤数(step)是人工提前定好的,如1000等。这个step不仅是步骤数,也代表着噪声的严重程度信息。

每次去噪所的Denoise 模块是同一个,进行反复使用。Denoise模块的输入不仅仅有随机噪声图像,还有其对应的step。

接着就是Noise Preidicter的输入是哪些,Noise Preidicter的输出是哪些。如图,Noise Preidicter的输入是加了噪声后的图像和对应的step。输出则是生成的纯噪声,与之对应的是我们制作数据时所加的纯噪声,也就是我们的ground truth。

对于文生图,就需要训练数据存在对应的文本信息,在输入原始噪声图像和step的基础上,还需要将图像对应的文字描述信息也加入Denoise模块中(加入到Noise Preidicter中)进行训练。

以下为扩散模型的算法流程的伪代码

Text Encoder,其将我们的prompt(提示词)进行编码转换,变为生成模型所需要的embedding,GPT、Bert都可以当做Text Encoder。关于Text Encoder在此我们不再赘述。

如下图所示,Text Encoder的效果对生成图像结果的影响很大。

:FID越小、CLIP Score越大,生成图像越好。

FID:利用预训练好的CNN网络对生成图像的隐变量进行提取,并通过softmax激活函数对隐变量归一化,将归一化的隐变量结果同利用真实数据所提取的归一化隐变量进行分布距离度量,根据度量结果判定生成图像效果的好坏。分布度量采用的是Frechet距离。建议在sample大量图像再测FID精度比较可靠。

CLIP:将生成图像和当时训练对应的文字喂到CLIP中,两者的生成向量近则生成图像效果好,向量远则效果差。

Generation Model,也就是生成模型,在这里,用的就是我们的稳定扩散模型。模型输入为:①text encoder所生成的embedding ②随机噪声图像(注意这里的随机噪声图像不与我们的目标图像一致,而是其缩小版) ③step。输出为:一个压缩版的中间产物——可以是人类看的懂或者看不懂的。

在制作训练数据时,噪声不再是加在原始图像上,而是加在利用编码器对原始图形进行提取编码的压缩版隐变量特征图上(对应着推理时模型输出的中间产物)。训练时的Denoise模块的输入输出也相应改变,输入为加了噪声的中间产物、text encoder所生成的embedding和step,输出为纯噪声。

Decoder是把Generation Model生成的中间产物转换为我们目标图像的部分,给我们的感觉有点像语义分割模型的解码器,或者超分网络模型。我们可以直接将训练好的VAE的解码器当作Decoder。

Decoder的训练只需要图像,不需要对应文字。

若Generation Model所生成的中间产物是人可看懂的小图的情况时——Decoder输入为影像的下采样结果,输出为原始影像。我们可以将自己可获取图像数据进行下采样,将下采样结果作为Decoder的输入,将原始影像作为输出进行Decoder的训练。

若Generation Model所生成的中间产物是人类看不懂的压缩图(latent representation,我们则需要AUTO-ENCODER来帮我们还原生成的目标图像。

如下图我们可以看到,Stable Diffusion、DALL-E系列、Imagen等都是上述的结构模式。

    以上就是本篇文章【【人工智能前沿弄潮】——生成式AI系列:扩散模型及稳定扩散模型】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/tnews/686.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
耐水弹力海棉
产品属性用途区域产品包装、耐水 防潮密度0.02-0.18g/cm3原产地中国,江苏,常州品牌D-Foam形状可根据客户提供图纸生产颜色可根
耐水高强度海棉
产品属性用途区域产品包装、耐水 防潮密度0.02-0.18g/cm3原产地中国,江苏,常州品牌D-Foam形状可根据客户提供图纸生产颜色可根
防潮耐水EVA材料
产品属性用途区域产品包装、耐水 防潮密度0.02-0.18g/cm3原产地中国,江苏,常州品牌D-Foam形状可根据客户提供图纸生产颜色可根
耐油耐水海绵
产品属性用途区域产品包装、耐水 防潮密度0.02-0.18g/cm3原产地中国,江苏,常州品牌D-Foam形状可根据客户提供图纸生产颜色可根
供应耐水海绵
产品属性用途区域产品包装、耐水 防潮密度0.02-0.18g/cm3原产地中国,江苏,常州品牌D-Foam形状可根据客户提供图纸生产颜色可根
看了OPPO、vivo的新旗舰手机样张后,决定还是继续用微单吧
最近,OPPO、vivo都给出了自家旗舰手机的样张,大战一触即发。记得手机圈上一次这么火爆,还是小米15 Ultra的时候。具体来说,当
微信借钱不求人,6个步骤轻松搞定...手机微信怎么借钱「微信借钱不求人,6个步骤轻松搞定...」
微信,作为中国人日常生活中不可或缺的社交软件,不仅满足了人们的沟通需求,还悄然融入了金融服务,其中就包括微信借钱功能。无
小米8系列手机,有它才叫防摔保护手机爆屏「小米8系列手机,有它才叫防摔保护」
手机已成为日常生活必备品,而且小米8陶瓷后盖摔不得,维修的费用都赶上半个手机的钱了,选什么手机壳呢,贼难拆的磨砂硬壳?一
米其林指南开启江苏篇章,“江苏味”如何与世界“双向奔赴”
米其林指南作为餐饮界的“奥斯卡”,关注度高。2024年7月,米其林指南重调评价体系,转为省份榜单评选,并官宣江苏省、福建省成
重磅发布!5.4%!
4月16日,国家统计局发布的数据显示,一季度,在以习近平同志为核心的党中央坚强领导下,各地区各部门认真贯彻落实党中央、国务