语言:
- 英文
许可证:creativeml-openrail-m
标签:
- 稳定扩散
- 稳定扩散-扩散器
- 文本到图像
- 安全张量
推理:true
缩略图:https://s2.loli.net/2023/05/31/bl27yWANrT3asoG.png
小部件:
- 文本:>-
金发双马尾凌乱发型的1girl,红眼,黑色水手服配红丝带,上半身,简单背景,灰色背景,锁骨
示例标题:示例 1girl
数据集:
- Crosstyan/BPDataset
库名称:diffusers
BP模型

更新
2023年1月2日: 我浪费了更多GPU小时数,使其训练得稍微过拟合一些。查看bp_mk3.safetensors和bp_mk5.safetensors。准备你自己的VAE!如果你无法加载safetensors,请更新你的WebUI。在images
文件夹中添加了大量样本!
2023年1月6日: 查看NMFSAN获取使用自定义嵌入训练的新模型。
简介

BP模型是一个基于Joseph Cheung的ACertainty的实验性稳定扩散模型。
为什么这个模型会存在?市面上已经有大量的稳定扩散模型,尤其是动漫风格的模型。但是,有没有任何模型在基础分辨率(base_res
)768甚至1024之前训练过?我想没有。这就是BP模型,一个你可能会爱或恨的稳定扩散模型。它使用来自Sankaku Complex的5k高质量图像(符合我的口味,但不一定符合你的)进行训练,并带有注释。数据集公开在Crosstyan/BPDataset以完全透明。纯标签组合可能不是描述图像的最佳方式,但我不需要做额外的工作。而且不,我不会向模型输入任何AI生成的图像,即使这可能会使模型在某些国家被禁止使用。
高分辨率模型的训练需要大量的GPU小时数,成本高昂。在这个特定的案例中,512分辨率训练30个epoch花费了10个V100 GPU小时,768分辨率训练30个epoch花费了60个V100 GPU小时。另外,1024分辨率的模型训练花费了100个V100 GPU小时,但仅运行了10个epoch。1024分辨率模型的训练结果与768分辨率模型相比没有显著改善,而且资源需求高,在32G VRAM的V100上批量大小仅为1。然而,768分辨率的训练确实比512分辨率的训练效果更好,值得考虑。值得注意的是,稳定扩散2.x也选择了768分辨率进行训练。然而,由于训练过程较慢,并且需要额外的先验知识来加速768分辨率的训练过程,从512分辨率开始训练可能更高效。
训练脚本使用了Mikubill/naifu-diffusion,我也推荐查看CCRcmcpe/scal-sdt。
以下是1024和768分辨率与宽高比桶的配置。
arb:
启用:true
调试:false
基础分辨率:[768, 768]
最大尺寸:[1152, 768]
可整除:64
最大宽高比误差:4
最小尺寸:512
尺寸限制:1792
arb:
启用:true
调试:false
基础分辨率:[1024, 1024]
最大尺寸:[1536, 1024]
可整除:64
最大宽高比误差:4
最小尺寸:960
尺寸限制:2389
限制

SCAL-SDT Wiki中描述的限制仍然适用。
SD无法正确生成人体,比如一只手生成6个手指。
BP模型可以生成更合适的小猫(如果你明白我的意思)比其他动漫模型更好,但仍然不完美。如扩散艺术或数字伪造?调查扩散模型中的数据复制中所示,复制粘贴效应仍然存在。
Anything v3™已被证明是社区中最受欢迎的动漫模型,但它也不完美,如JosephusCheung/ACertainThing中所述。
它并不总是忠实于你的提示;它会添加无关的细节,有时这些细节高度同质化。
BP模型在一个相对较小的数据集上进行了微调,本质上容易过拟合。鉴于数据集的规模,这并不令人惊讶,但ACertainty(完整Danbooru)和稳定扩散(LAION)的强大先验知识有助于最小化过拟合的影响。然而,我相信它会比一些只使用几百张或更少图像训练的艺术家风格DreamBooth模型表现更好。我也反对通过合并模型来改变风格,因为你可以通过适当的标题和提示训练来应用不同的风格。
此外,我数据集中的一些图像在标题中有艺术家名字,但一些艺术家名字在CLIP标记化时会被误解。例如,as109会被标记化为[as, 1, 0, 9]
,而fuzichoco会变成[fu, z, ic, hoco]
。罗马化的日语在这方面问题很多,除了更改标题中的艺术家名字外,我没有好的解决方案,这很耗时,而且你不能保证选择的标记足够独特。还记得sks吗?
语言漂移问题仍然存在。除非我能找到一种方法来生成更好的标题或手动为图像添加标题,否则我无能为力。OFA结合convnext-tagger可以为SFW内容提供更好的结果。然而,NSFW内容需要微调,我不认为有人愿意做。(不稳定的扩散能给我们惊喜吗?)
精选样本
这里有一些精选样本。
我在生成这些样本时使用了xformers,即使使用相同的种子,它可能会产生略微不同的结果(欢迎来到非确定性领域)。还启用了“在hires.fix时放大潜在空间图像
”。

by (fkey:1) (shion:0.4) [sketch:0.75] (closed mouth expressionless:1) 猫耳猫娘1girl,穿着白色水手服配短裙和白丝袜站在游艇甲板上,牛仔镜头,背景是日落,光粒子,散景
负面提示:低分辨率,解剖错误,手部错误,文字,错误,缺失手指,多余数字,最差质量,低质量,普通质量,口红,2koma,3koma,荷兰角,脸红,从背后
步骤:28,采样器:Euler a,CFG比例:12,种子:4236324744,尺寸:960x1600,模型哈希:855959a4,去噪强度:0.7,Clip跳过:2,ENSD:31337,第一遍尺寸:0x0

1girl穿着黑色水手服站在田野中独照,食物,水果,柠檬,泡泡,星球,月亮,橙子(水果),柠檬片,叶子,鱼,橙子片,by (tabi:1.25),点色,看着观众,近景牛仔镜头
负面提示:(bad:0.81), (comic:0.81), (cropped:0.81), (error:0.81), (extra:0.81), (low:0.81), (lowres:0.81), (speech:0.81), (worst:0.81), (blush:0.9), 2koma, 3koma, 4koma, 拼贴, 口红
步骤:18,采样器:DDIM,CFG比例:7,种子:2017390109,尺寸:768x1600,模型哈希:fed5b383,批量大小:4,批量位置:1,去噪强度:0.7,Clip跳过:2,ENSD:31337,第一遍尺寸:0x0

[sketch:0.75] [(oil painting:0.5)::0.75] by (fuzichoco:0.8) shion (fkey:0.9), 尖牙独照猫耳猫娘女孩,多色条纹凌乱头发蓝色[黑色|蓝色]长发刘海蓝眼睛,蓝色水手领校服短袖手放在脸颊上坐着,上半身,草莓甜点冰淇淋食物水果勺子橙色芭菲
负面提示:(bad:0.98), (normal:0.98), (comic:0.81), (cropped:0.81), (error:0.81), (extra:0.81), (low:0.81), (lowres:1), (speech:0.81), (worst:0.81), 2koma, 3koma, 4koma, 拼贴, 口红
步骤:40,采样器:Euler a,CFG比例:8,种子:910302581,尺寸:960x1600,模型哈希:fed5b383,批量大小:4,批量位置:2,去噪强度:0.7,Clip跳过:2,ENSD:31337,第一遍尺寸:0x0

(best:0.7), 高度详细,1girl,上半身,美丽的详细眼睛, 中等胸部, 长发, 灰色头发, 灰色眼睛, 卷发, 刘海, 空洞的眼睛, 面无表情, 双马尾, 美丽的详细天空, 美丽的详细水面, [电影灯光:0.6], 上半身, 校服, 黑色丝带, 轻微微笑
负面提示:(bad:0.98), (normal:0.98), (comic:0.81), (cropped:0.81), (error:0.81), (extra:0.81), (low:0.81), (lowres:1), (speech:0.81), (worst:0.81), 2koma, 3koma, 4koma, 拼贴, 口红
步骤:40,采样器:Euler,CFG比例:8.5,种子:2311603025,尺寸:960x1600,模型哈希:fed5b383,批量大小:4,批量位置:3,去噪强度:0.7,Clip跳过:2,ENSD:31337,第一遍尺寸:0x0
我不认为其他模型能做到这一点。

by [shion (fkey:0.9):momoko \(momopoco\):0.15], 尖牙独照猫耳猫娘女孩,多色条纹凌乱头发蓝色[黑色|蓝色]长发刘海蓝眼睛,蓝色水手领校服短袖手放在脸颊上(竖起中指:1.1)坐着,上半身,草莓甜点冰淇淋食物水果勺子橙色芭菲
负面提示:(bad:0.98), (normal:0.98), (comic:0.81), (cropped:0.81), (error:0.81), (extra:0.81), (low:0.81), (lowres:1), (speech:0.81), (worst:0.81), 2koma, 3koma, 4koma, 拼贴, 口红
步骤:40,采样器:Euler a,CFG比例:8,种子:2496891010,尺寸:960x1600,模型哈希:fed5b383,批量大小:4,批量位置:1,去噪强度:0.7,Clip跳过:2,ENSD:31337,第一遍尺寸:0x0

by [shion (fkey:0.9):momoko \(momopoco\):0.55], 闭嘴尖牙独照猫耳猫娘女孩,多色条纹凌乱头发蓝色[黑色|蓝色]长发刘海蓝眼睛,