【AI 绘画】文生图&图生图（基于diffusers）

日期：2025-01-02 移动：http://ww.kub2b.com/mobile/quote/11752.html

本次测试主要结果展示如下：

SDXL文生图

模型基本原理介绍如下

stable diffusion首先训练一个自编码器，学习将图像数据压缩为低维表示。通过使用训练过的编码器E，可以将全尺寸图像编码为低维潜在数据(压缩数据)。然后通过使用经过训练的解码器D，将潜在数据解码回图像。而扩散过程就是在低维的潜在空间完成，这也是为什么它比纯扩散模型更快。

模型基本构成:clip+vae + unet(扩散模型)

U-Net网络负责预测噪声，不断优化生成过程，在预测噪声的同时不断注入文本语义信息。而schedule算法对每次U-Net预测的噪声进行优化处理（动态调整预测的噪声，控制U-Net预测噪声的强度），从而统筹生成过程的进度。在SD中，U-Net的迭代优化步数大概是50或者100次，在这个过程中Latent Feature的质量不断的变好（纯噪声减少，图像语义信息增加，文本语义信息增加）。U-Net网络和Schedule算法的工作完成以后，SD模型会将优化迭代后的Latent Feature输入到图像解码器（VAE Decoder）中，将Latent Feature重建成像素级图像。
主要流程结构：

diffusers是Hugging Face推出的一个diffusion库，它提供了简单方便的diffusion推理训练pipe，同时拥有一个模型和数据社区，代码可以像torchhub一样直接从指定的仓库去调用别人上传的数据集和pretrain checkpoint。除此之外，安装方便，代码结构清晰，注释齐全，二次开发会十分有效率。

主要测试代码：

文生图

图生图

附加Loral

加载多个loral，可用set_adapters设置不同权重

扩展:添加不同的lora可以产生不同的效果，比如我们添加一个龙的背景lora,来生成不同风格的写真

本文地址：http://ww.kub2b.com/quote/11752.html 企库往 http://ww.kub2b.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行

【AI 绘画】 文生图&图生图（基于diffusers）

【AI 绘画】文生图&图生图（基于diffusers）