语言:
- 英文
标签:
- 文本生成图像
- 稳定扩散
- 安全张量
- 稳定扩散XL
小部件示例:
- 文本提示: >-
1女孩, 绿色头发, 毛衣, 注视观众, 上半身, 无檐帽, 户外, 夜晚, 高领, 杰作, 高分, 极高分, 超高清
参数:
负面提示: >-
低分辨率, 解剖错误, 手部缺陷, 文字, 错误, 缺失手指, 多余手指, 手指不全, 裁剪, 最差质量, 低质量, 低分, 差评, 平均分, 签名, 水印, 用户名, 模糊
示例标题: 1女孩
- 文本提示: >-
1男孩, 男性焦点, 绿色头发, 毛衣, 注视观众, 上半身, 无檐帽, 户外, 夜晚, 高领, 杰作, 高分, 极高分, 超高清
参数:
负面提示: >-
低分辨率, 解剖错误, 手部缺陷, 文字, 错误, 缺失手指, 多余手指, 手指不全, 裁剪, 最差质量, 低质量, 低分, 差评, 平均分, 签名, 水印, 用户名, 模糊
示例标题: 1男孩
许可证: openrail++
基础模型:
- stabilityai/stable-diffusion-xl-base-1.0
Animagine XL 4.0 Zero

概述
Animagine XL 4.0 Zero(风格化名称为Anim4gine)是终极动漫主题微调SDXL模型,也是Animagine XL系列的最新版本。虽然作为续作,但该模型基于Stable Diffusion XL 1.0重新训练,使用了来自多个来源的840万张多样化动漫风格图像数据集(知识截止日期为2025年1月7日),并进行了约2650 GPU小时的微调。与前一版本类似,该模型采用标签排序方法进行身份和风格训练。Animagine XL 4.0 Zero同时作为预训练基础模型,是LoRA训练和进一步微调的理想基础。
模型详情
下游应用
- 在我们的Hugging Face Spaces中使用该模型
- 在ComfyUI或Stable Diffusion Webui中使用
- 通过🧨
diffusers
库使用
🧨 Diffusers安装指南
1. 安装必要库
pip install diffusers transformers accelerate safetensors --upgrade
2. 示例代码
以下示例使用lpw_stable_diffusion_xl
流程,能更好地处理长文本、加权和详细提示。模型已上传FP16格式,无需在from_pretrained
调用中指定variant="fp16"
。
import torch
from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0-zero",
torch_dtype=torch.float16,
use_safetensors=True,
custom_pipeline="lpw_stable_diffusion_xl",
add_watermarker=False
)
pipe.to('cuda')
prompt = "1女孩, 有马佳奈, 推之子, 星街彗星, 星街彗星(第一套服装), 角色扮演, 注视观众, 微笑, 户外, 夜晚, v, 杰作, 高分, 极高分, 超高清"
negative_prompt = "低分辨率, 解剖错误, 手部缺陷, 文字, 错误, 缺失手指, 多余手指, 手指不全, 裁剪, 最差质量, 低质量, 低分, 差评, 平均分, 签名, 水印, 用户名, 模糊"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=6,
num_inference_steps=25
).images[0]
image.save("./有马佳奈.png")
使用指南
提示结构概要可参考下图:

1. 提示结构
模型采用标签排序训练方法,请使用以下模板:
1女孩/1男孩/其他, 角色名, 作品来源, 评级, 其他任意顺序标签, 最后添加质量增强标签
2. 质量增强标签
在提示末尾添加:
杰作, 高分, 极高分, 超高清
3. 推荐负面提示
低分辨率, 解剖错误, 手部缺陷, 文字, 错误, 缺失手指, 多余手指, 手指不全, 裁剪, 最差质量, 低质量, 低分, 差评, 平均分, 签名, 水印, 用户名, 模糊
4. 最优参数
- CFG比例: 4-7(推荐5)
- 采样步数: 25-28(推荐28)
- 推荐采样器: 欧拉祖先(Euler a)
5. 推荐分辨率
方向 |
尺寸 |
宽高比 |
方形 |
1024x1024 |
1:1 |
横版 |
1152x896 |
9:7 |
|
1216x832 |
3:2 |
|
1344x768 |
7:4 |
|
1536x640 |
12:5 |
竖版 |
896x1152 |
7:9 |
|
832x1216 |
2:3 |
|
768x1344 |
4:7 |
|
640x1536 |
5:12 |
6. 完整提示示例
1女孩, 萤火虫(崩坏:星穹铁道), 崩坏系列, 崩坏:星穹铁道, 安全, 休闲, 单人, 注视观众, 户外, 微笑, 伸手向观众, 夜晚, 杰作, 高分, 极高分, 超高清
特殊标签
模型支持多种特殊标签,可用于控制图像生成的不同方面。这些标签经过精心加权和测试,能在不同提示下提供一致效果。
质量标签
直接影响图像整体质量和细节水平的基础控制标签:
评分标签
相比基础质量标签能更精细控制图像质量,在本模型中影响更强:
年代标签
可影响特定时期或年份的艺术风格:
分级标签
控制生成内容的安全级别(需负责任使用):
训练信息
模型采用尖端硬件和优化超参数训练,技术规格如下:
参数 |
值 |
硬件 |
7台H100 80GB SXM5 |
图像数量 |
8,401,464张 |
UNet学习率 |
2.5e-6 |
文本编码器学习率 |
1.25e-6 |
调度器 |
带预热的恒定调度 |
预热步数 |
5% |
批量大小 |
32 |
梯度累积步数 |
2 |
训练分辨率 |
1024x1024 |
优化器 |
Adafactor |
输入扰动噪声 |
0.1 |
去偏估计损失 |
启用 |
混合精度 |
fp16 |
致谢
本项目离不开Stability AI、Novel AI和Waifu Diffusion团队的开创性工作和全面文档支持。特别感谢Main提供的启动资金使我们能推进到V2以上版本。对于本次迭代,我们要衷心感谢社区成员的持续支持,特别是:
- Moescape AI:模型分发和测试的重要合作伙伴
- Lesser Rabbit:提供关键计算资源和研究资助
- Kohya SS:开发全面的开源训练框架
- discus0434:创建行业领先的开源美学预测器2.5
- 早期测试者:提供关键反馈和全面质量保证
贡献者
衷心感谢项目核心成员的重要贡献:
模型开发
Gradio界面
关系维护、财务与质量保证
数据处理
新增筹款方式!
我们很高兴通过GitHub Sponsors推出新的筹款方式,以支持训练、研究和模型开发。您的