许可协议:其他
许可名称:FAIPL-1.0-SD
许可链接:https://freedevproject.org/faipl-1.0-sd/
语言:
- 英语
标签:
- 文本生成图像
- 稳定扩散
- 安全张量
- 稳定扩散XL
基础模型:Linaqruf/animagine-xl-2.0
示例输入:
-
文本:1girl, 绿发, 毛衣, 看向观众, 上半身, 无檐帽, 户外, 夜晚, 高领, 杰作, 最佳质量
参数:
负面提示:nsfw, 低分辨率, 解剖结构错误, 手部错误, 文字, 错误, 缺失手指, 多余手指, 手指过少, 裁剪, 最差质量, 低质量, 普通质量, JPEG伪影, 签名, 水印, 用户名, 模糊, 艺术家名
示例标题:1girl
-
文本:1boy, 男性焦点, 绿发, 毛衣, 看向观众, 上半身, 无檐帽, 户外, 夜晚, 高领, 杰作, 最佳质量
参数:
负面提示:nsfw, 低分辨率, 解剖结构错误, 手部错误, 文字, 错误, 缺失手指, 多余手指, 手指过少, 裁剪, 最差质量, 低质量, 普通质量, JPEG伪影, 签名, 水印, 用户名, 模糊, 艺术家名
示例标题:1boy
Animagine XL 3.0 基础版
概述
Animagine XL 3.0 基础版 是先进的动漫文本生成图像模型 Animagine XL 3.0 的基础版本。此基础版涵盖了模型开发的前两个阶段,专注于建立核心功能并完善关键方面。它为 Animagine XL 3.0 的全部功能奠定了基础。作为 Animagine XL 3.0 项目的一部分,它采用了基于迁移学习的两阶段开发流程。这种方法有效地解决了第一阶段训练完成后 UNet 中的问题,例如解剖结构错误。
然而,此模型不推荐用于推理。建议将此模型作为基础进行构建。如需用于推理,请使用 Animagine XL 3.0。
模型详情
使用指南
标签顺序
在此版本中,提示方式略有不同。为了获得最佳效果,建议遵循结构化提示模板,因为我们是这样训练模型的:
1girl/1boy, 角色名, 来自哪个系列, 其他内容按任意顺序排列。
特殊标签
与之前的版本类似,此模型使用了一些特殊标签来引导结果的质量、评级和发布时间。即使不使用这些特殊标签,模型仍能完成任务,但建议使用它们以便更容易控制模型。
质量修饰符
质量修饰符 |
评分标准 |
masterpiece |
>150 |
best quality |
100-150 |
high quality |
75-100 |
medium quality |
25-75 |
normal quality |
0-25 |
low quality |
-5-0 |
worst quality |
<-5 |
评级修饰符
评级修饰符 |
评级标准 |
rating: general |
普通 |
rating: sensitive |
敏感 |
rating: questionable , nsfw |
争议性 |
rating: explicit , nsfw |
露骨 |
年份修饰符
这些标签有助于引导结果偏向现代或复古动漫艺术风格,范围从 newest
到 oldest
。
年份标签 |
年份范围 |
Newest |
2022至2023 |
late |
2019至2021 |
mid |
2015至2018 |
early |
2011至2014 |
oldest |
2005至2010 |
推荐设置
为了引导模型生成高美学图像,使用以下负面提示:
nsfw, 低分辨率, 解剖结构错误, 手部错误, 文字, 错误, 缺失手指, 多余手指, 手指过少, 裁剪, 最差质量, 低质量, 普通质量, JPEG伪影, 签名, 水印, 用户名, 模糊, 艺术家名
为了获得更高质量的结果,在提示前添加:
masterpiece, best quality
然而,谨慎使用 masterpiece
和 best quality
,因为许多高分数据集包含NSFW内容。最好在负面提示中添加 nsfw
和 rating: sensitive
,并在正面提示中添加 rating: general
。建议使用较低的分类器自由引导(CFG Scale)值,约为5-7,采样步数低于30,并使用Euler Ancestral(Euler a)作为采样器。
多比例分辨率
此模型支持生成以下尺寸的图像:
尺寸 |
宽高比 |
1024 x 1024 |
1:1 正方形 |
1152 x 896 |
9:7 |
896 x 1152 |
7:9 |
1216 x 832 |
19:13 |
832 x 1216 |
13:19 |
1344 x 768 |
7:4 横向 |
768 x 1344 |
4:7 纵向 |
1536 x 640 |
12:5 横向 |
640 x 1536 |
5:12 纵向 |
训练与超参数
- Animagine XL 3.0 在2块80GB内存的A100 GPU上训练了21天,超过500 GPU小时。训练过程包括三个阶段:
- 特征对齐阶段:使用120万张图像使模型熟悉基本动漫概念。
- 优化UNet阶段:使用2500个精选数据集仅微调UNet。
超参数
阶段 |
周期数 |
UNet学习率 |
训练文本编码器 |
文本编码器学习率 |
批量大小 |
混合精度 |
噪声偏移 |
特征对齐阶段 |
10 |
7.5e-6 |
是 |
3.75e-6 |
48 x 2 |
fp16 |
不适用 |
优化UNet阶段 |
10 |
2e-6 |
否 |
不适用 |
48 |
fp16 |
0.0357 |
模型对比
训练配置
配置项 |
Animagine XL 2.0 |
Animagine 3.0 |
GPU |
A100 80G |
2 x A100 80G |
数据集 |
|
|