许可证:其他
许可证名称:FAIPL-1.0-SD
许可证链接:https://freedevproject.org/faipl-1.0-sd/
语言:
- 英文
基础模型:Eugeoter/artiwaifu-diffusion-1.0
管道标签:文本到图像
库名称:diffusers
标签:
- 文本到图像
- 安全张量
- 稳定扩散
- 稳定扩散XL
ArtiWaifu Diffusion 2.0
我们发布了ArtiWaifu Diffusion 2.0模型,旨在生成美观且忠实还原的动漫风格插图。AWA Diffusion是Stable Diffusion XL模型的迭代版本,掌握了超过9000种艺术风格和6000多个动漫角色,通过触发词生成图像。作为专为动漫设计的图像生成模型,它在生成高质量动漫图像方面表现出色,尤其是在生成具有高度辨识度的风格和角色图像时,同时保持一贯的高质量美学表达。
模型详情
AWA Diffusion模型基于ArtiWaifu Diffusion 1.0微调,选用了250万张高质量动漫图像的数据集,涵盖了广泛的热门和小众动漫概念。AWA Diffusion采用了我们最先进的训练策略,使用户能够轻松引导模型生成特定角色或风格的图像,同时保持高图像质量和美学表达。
与ArtiWaifu Diffusion 1.0相比,2.0版本具有以下主要特点:
模型信息
使用指南
本指南将(i)介绍模型的推荐使用方法和提示词撰写策略,旨在为生成提供建议,以及(ii)作为模型使用的参考文档,详细说明触发词、质量标签、评级标签、风格标签和角色标签的撰写模式和策略。
基本用法
- CFG比例:5-11
- 分辨率:面积(=宽度×高度)约为1024×1024。不低于256×256,且长宽均为32的倍数。
- 采样方法:Euler A(20+步)或DPM++ 2M Karras(~35步)
由于特殊的训练方法,AWA的最佳推理步数高于常规值。随着推理步数的增加,生成图像的质量可以持续提升...
‚ùì 问题:为什么不使用标准的SDXL分辨率?
üí° 回答:因为训练中使用的分桶算法不遵循固定的桶集。尽管这不符合位置编码,但我们没有观察到任何不良影响。
提示策略
所有文本到图像的扩散模型对提示词都非常敏感,AWA Diffusion也不例外。即使提示词中的一个拼写错误,甚至将空格替换为下划线,都可能影响生成结果。AWA Diffusion鼓励用户使用逗号+空格(,
)分隔的标签形式撰写提示词。尽管模型也支持自然语言描述作为提示词,或两者的混合形式,但标签形式的提示词更稳定且用户友好。
在描述特定的ACG概念时,如角色、风格或场景,我们建议用户从Danbooru标签中选择标签,并将Danbooru标签中的下划线替换为空格,以确保模型准确理解您的需求。例如,bishop_(chess)
应写为bishop (chess)
,而在使用AUTOMATIC1111 WebUI等通过括号加权提示词的推理工具时,标签内的所有括号都应转义,即bishop \(chess\)
。
标签顺序
包括AWA Diffusion在内的大多数扩散模型能更好地理解逻辑有序的标签。虽然标签顺序并非强制要求,但它可以帮助模型更好地理解您的需求。一般来说,标签在顺序中的位置越靠前,其对生成的影响越大。
以下是一个标签顺序的示例。该示例组织了标签的顺序,前置了艺术风格标签和角色标签,因为风格和主题对图像最为重要。随后,按重要性顺序添加其他标签。最后,美学标签和质量标签置于末尾,以进一步强调图像的美学。
艺术风格(by xxx) -> 角色(1 frieren (sousou no frieren)) -> 种族(精灵) -> 构图(牛仔镜头) -> 绘画风格(厚涂) -> 主题(奇幻主题) -> 主要环境(森林中,白天) -> 背景(渐变背景) -> 动作(坐在地上) -> 表情(面无表情) -> 主要特征(白发) -> 其他特征(双马尾,绿眼睛,微张的嘴唇) -> 服装(穿着白色连衣裙) -> 服装配饰(褶边) -> 其他物品(手持魔法杖) -> 次要环境(草地,阳光) -> 美学(美丽色彩,细节丰富) -> 质量(最佳质量) -> 次要描述(鸟,云,蝴蝶)
标签顺序并非一成不变。灵活撰写提示词可能会获得更好的结果。例如,如果某个概念(如风格)的效果过强,影响了图像的美观,可以将其移至较后的位置以减少其影响。
负面提示
AWA Diffusion不需要负面提示。如果使用负面提示,并非负面提示越多越好。负面提示应尽可能简洁且易于模型识别。过多的负面词可能导致生成结果更差。
以下是使用负面提示的一些推荐场景:
- 水印:
签名
,标志
,艺术家名称
;
- 质量:
最差质量
,低分辨率
,丑陋
,抽象
;
- 风格:
真实生活
,3D
,赛璐珞
,草图
,草稿
;
- 人体解剖:
变形的手
,融合的手指
,多余的肢体
,多余的手臂
,缺失的手臂
,多余的腿
,缺失的腿
,多余的手指
,手指过少
。
触发词
在提示词中添加触发词,以告知模型您想要生成的概念。触发词可以包括角色名称、艺术风格、场景、动作、质量等。
触发词技巧
- 拼写错误:模型对触发词的拼写非常敏感。即使一个字母的差异也可能导致触发失败或产生意外结果。
- 括号转义:在使用依赖括号加权提示词的推理工具(如AUTOMATIC1111 WebUI)时,注意转义触发词中的括号,例如
1 lucy (cyberpunk)
-> 1 lucy \(cyberpunk\)
。
- 触发效果预览:通过Danbooru搜索标签以预览标签,更好地理解标签的含义和用法。
风格标签
风格标签分为两种类型:绘画风格标签和艺术风格标签。绘画风格标签描述图像中使用的绘画技术或媒介,如油画、水彩、平涂和厚涂。艺术风格标签代表图像背后的艺术家的艺术风格。
AWA Diffusion支持以下绘画风格标签:
完整绘画风格标签列表请参见绘画风格标签列表。
AWA Diffusion支持以下艺术风格标签:
- Danbooru标签中可用的艺术风格标签,如
by yoneyama mai
,by wlop
等;
- AID XL 0.8支持的所有艺术风格标签,如
by antifreeze3
,by 7thknights
等;
- 从Pixiv相互收集的一些风格标签,如
by trickortreat
,by shiroski
等;
完整艺术风格标签列表请参见艺术风格标签列表。
标签库中标签数量越高,艺术风格的训练越充分,生成的保真度越高。通常,标签数量高于50的艺术风格标签能产生更好的生成结果。
风格标签技巧
- 强度调整:您可以通过调整提示词中风格标签的顺序或权重来调整风格的强度。前置风格标签可增强其效果,而后置则减弱其效果。
‚ùì 问题:为什么在艺术风格标签中包含前缀by
?
üí° 回答:为了明确告知模型您希望生成特定的艺术风格而非其他内容,我们建议在艺术风格标签中包含前缀by
。这将by xxx
与xxx
区分开来,尤其是当xxx
本身具有其他含义时,例如dino
可能代表恐龙或艺术家的标识。
类似地,在触发角色时,在角色触发词前添加1
作为前缀。
角色标签
角色标签描述生成图像中的角色IP。使用角色标签将引导模型生成角色的外观特征。
角色标签也需要从角色标签列表中获取。要生成特定角色,首先在标签库中找到对应的触发词,将触发词中的所有下划线_
替换为空格
,并在角色名称前添加1
。
例如,1 ayanami rei
触发模型生成动漫《EVA》中的角色绫波丽,对应Danbooru标签ayanami_rei
;1 asuna (sao)
触发模型生成《刀剑神域》中的角色亚丝娜,对应Danbooru标签asuna_(sao)
。
更多示例
标签库中标签数量越高,角色的训练越充分,生成的保真度越高。通常,标签数量高于100的角色标签能产生更好的生成结果。
角色标签技巧
- 角色服装:为了实现更灵活的角色服装设计,角色标签不会刻意引导模型绘制角色的官方服装。要生成特定官方服装的角色,除了触发词外,还应在提示词中包含服装的描述,例如“1 lucy (cyberpunk), 穿着白色短款夹克,内搭紧身衣,短裤,大腿袜,臀部开衩”。
- 系列注释:某些角色标签在角色名称后包含额外的括号注释。括号和其中的注释不能省略,例如
1 lucy (cyberpunk)
不能写为1 lucy
。除此之外,您不需要添加任何额外的注释,例如,您不需要在角色标签后添加角色所属的系列标签。
- 已知问题1:在生成某些角色时,可能会出现神秘的特征变形,例如
1 asui tsuyu
触发《我的英雄学院》中的角色蛙吹梅雨可能会在眼睛之间出现一条额外的黑线。这是因为模型错误地将大圆眼睛解读为眼镜,因此应在负面提示中包含glasses
以避免此问题。
- 已知问题2:在生成不太受欢迎的角色时,由于数据/训练不足,AWA Diffusion可能会生成特征还原不完整的图像。在这种情况下,我们建议您在提示词中扩展角色描述,不仅包括角色名称,还应详细描述角色的来源、种族、发色、服装等。
角色标签触发示例
触发词 |
备注 |
1 lucy (cyberpunk) |
‚úÖ 正确的角色标签 |
1 lucy |
‚ùå 缺少括号注释 |
1 lucy (cyber) |
‚ùå 错误的括号注释 |
lucy (cyberpunk) |
‚ùå 缺少前缀1 |
1 lucy cyberpunk |
‚ùå 缺少括号 |
1 lucy (cyberpunk |
‚ùå 括号未闭合 |
1 lucky (cyberpunk) |
‚ùå 拼写错误 |
1 lucy (cyberpunk: edgerunners) |
‚ùå 括号注释不符合要求的角色标签格式 |
‚ùì 问题:为什么有些角色标签包含括号注释,例如lucy (cyberpunk)
,而其他角色标签没有,例如frieren
?
üí° 回答:在不同作品中,可能存在同名角色,例如《刀剑神域》和《蓝色档案》中的亚丝娜。为了区分这些同名角色,需要在角色名称后用作品名称进行注释,如果名称过长则缩写。对于目前没有重复的独特名称角色,如frieren
,则不需要特殊注释。以下是一个示例:
质量标签和美学标签
对于AWA Diffusion,在正面提示词中包含质量描述符非常重要。质量描述涉及质量标签和美学标签。
质量标签直接描述生成图像的美学质量,影响细节、纹理、人体解剖、光照、色彩等。添加质量标签有助于模型生成更高质量的图像。质量标签从高到低排序如下:
惊人质量 -> 最佳质量 -> 高质量 -> 普通质量 -> 低质量 -> 最差质量
美学标签描述生成图像的美学特征,帮助模型产生具有艺术吸引力的图像。除了典型的美学词汇如透视
,光影
,AWA Diffusion还经过特殊训练,能有效响应美学触发词如美丽色彩
,细节丰富
和美学
,分别表达吸引人的色彩、细节和整体美感。
推荐的通用质量描述方式为:(您的提示词), 美丽色彩, 细节丰富, 惊人质量
质量和美学标签技巧
- 标签数量:只需一个质量标签;可以添加多个美学标签。
- 标签位置:质量和美学标签的位置不固定,但通常置于提示词末尾。
- 相对质量:质量没有绝对层次;隐含的质量与一般美学标准一致,不同用户对质量的感知可能不同。
评级标签
评级标签描述生成图像内容的暴露程度。评级标签从高到低排序如下:
评级: 普通(或安全) -> 评级: 暗示 -> 评级: 可疑 -> 评级: 明确(或NSFW)
提示词示例
示例1
A
by yoneyama mai, 1 frieren, 1girl, solo, 奇幻主题, 微笑, 手持魔法杖, 美丽色彩, 惊人质量
- by yoneyama mai 触发米山舞的艺术风格,前置以增强效果。
- 1 frieren 触发《葬送的芙莉莲》中的角色芙莉莲。
- 美丽色彩 描述生成图像中的美丽色彩。
- 惊人质量 描述生成图像的惊人质量。
B
by nixeu, 1 lucy (cyberpunk), 1girl, solo, 牛仔镜头, 渐变背景, 白色短款夹克, 内搭紧身衣, 短裤, 大腿袜, 臀部开衩, 细节丰富, 最佳质量
示例2:风格混合
通过叠加多个不同的风格标签,可以生成具有多种风格特征的图像。
A 简单混合
by ningen mame, by ciloranko, by sho (sho lwlw), 1girl, 1 初音未来, 坐姿, 手臂支撑, 微笑, 细节丰富, 惊人质量
B 加权混合
使用AUTOMATIC1111 WebUI提示词加权语法(括号加权),对不同风格标签进行加权,以更好地控制生成图像的风格。
(by ningen mame:0.8), (by ciloranko:1.1), (by sho (sho lwlw):1.2), 1girl, 1 初音未来, 坐姿, 手臂支撑, 微笑, 细节丰富, 惊人质量
C 高级混合
使用AUTOMATIC1111 WebUI提示词加权语法(括号加权),|
符号可用于直接混合两个词。
(by trickortreat|by shiroski|by wlop|by baihuahua|by as109), 1girl, 1 初音未来, 坐姿, 手臂支撑, 微笑, 细节丰富, 惊人质量
示例3:多角色场景
通过在提示词中添加多个角色标签,可以生成同一画面中包含多个角色的图像。与其他类似模型相比,AWA在多角色场景中表现更好,但仍不稳定。
A 混合性别场景
1girl and 1boy, 1 甘雨 girl, 1 五条悟 boy, 美丽色彩, 惊人质量
B 同性别场景
2girls, 1 甘雨 girl, 1 宵宫 girl, 美丽色彩, 惊人质量
未来工作
与V1.0一样,AWA Diffusion预计将结合高层次的美学与全面的知识。它既不应有传统AI的油腻感,也不应成为知识匮乏的花瓶。
我们将继续探索更先进的训练技术和策略,并将更多更好的数据添加到我们的数据集中,持续提升模型的质量。
支持我们
训练AWA Diffusion产生了大量成本。如果您欣赏我们的工作,请考虑通过Ko-fi支持我们,以帮助我们的研发工作。感谢您的喜欢和支持!