语言:
- 英文
标签:
- 文本生成图像
- 稳定扩散模型
- 安全张量格式
- SDXL模型
小部件示例:
- 文本提示: >-
1女孩, 绿发, 毛衣, 注视观众, 上半身, 无檐帽, 户外, 夜晚, 高领衫, 杰作级, 高分, 极佳评分, 超高分辨率
参数:
负面提示: >-
低分辨率, 结构畸形, 手部缺陷, 文字, 错误, 缺指, 多指, 少指, 裁剪不当, 最差质量, 低质量, 低分, 差评, 一般评分, 签名, 水印, 用户名, 模糊
示例标题: 1女孩
- 文本提示: >-
1男孩, 男性焦点, 绿发, 毛衣, 注视观众, 上半身, 无檐帽, 户外, 夜晚, 高领衫, 杰作级, 高分, 极佳评分, 超高分辨率
参数:
负面提示: >-
低分辨率, 结构畸形, 手部缺陷, 文字, 错误, 缺指, 多指, 少指, 裁剪不当, 最差质量, 低质量, 低分, 差评, 一般评分, 签名, 水印, 用户名, 模糊
示例标题: 1男孩
许可证: openrail++
基础模型:
- stabilityai/stable-diffusion-xl-base-1.0
Animagine XL 4.0 动漫生成模型

模型概述
Animagine XL 4.0(风格化写作Anim4gine)是终极动漫主题微调SDXL模型,也是Animagine XL系列的最新版本。虽然延续前作,但本模型基于Stable Diffusion XL 1.0重新训练,使用截至2025年1月7日的840万张多样化动漫风格图像数据集,累计GPU训练时长约2650小时。与前代相同,本模型采用标签排序法进行特征与风格训练。
随着**Animagine XL 4.0 Opt(优化版)**的发布,模型通过额外数据集进一步精炼,显著提升以下方面:
- 输出稳定性
- 人体结构准确性
- 噪点控制
- 色彩饱和度
- 整体色彩精度
这些改进使优化版在保持系列标志性品质的同时,呈现更稳定且视觉惊艳的效果。
版本日志
- 2025-02-13 – 发布Animagine XL 4.0优化版
- 增强输出稳定性
- 优化人体比例精度
- 减少生成噪点与伪影
- 修复低饱和度问题,色彩更丰富
- 提升色彩准确度
- 2025-01-24 – 初始版本发布
模型详情
下游应用
- 通过我们的Hugging Face空间在线体验
- 在ComfyUI或Stable Diffusion Webui中部署
- 使用🧨
diffusers
库调用
🧨 Diffusers安装指南
1. 安装依赖库
pip install diffusers transformers accelerate safetensors --upgrade
2. 示例代码
以下示例使用lpw_stable_diffusion_xl
流程,可更好处理长文本、加权及详细提示词。模型已上传FP16格式,无需在from_pretrained
中指定variant="fp16"
。
import torch
from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0",
torch_dtype=torch.float16,
use_safetensors=True,
custom_pipeline="lpw_stable_diffusion_xl",
add_watermarker=False
)
pipe.to('cuda')
prompt = "1女孩, 有马佳奈, 推之子, 星街彗星, 星街彗星(初代服装), cosplay, 注视观众, 微笑, 户外, 夜晚, 虚拟主播, 杰作级, 高分, 极佳评分, 超高分辨率"
negative_prompt = "低分辨率, 结构畸形, 手部缺陷, 文字, 错误, 缺指, 多指, 少指, 裁剪不当, 最差质量, 低质量, 低分, 差评, 一般评分, 签名, 水印, 用户名, 模糊"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=5,
num_inference_steps=28
).images[0]
image.save("./有马佳奈.png")
使用规范
提示词结构示意图:

1. 提示词结构
模型采用标签排序训练法,建议使用以下模板:
1女孩/1男孩/其他主体, 角色名, 作品名称, 评级标签, 其他任意顺序标签, 最后添加质量增强标签
2. 质量增强标签
在提示词末尾添加:
杰作级, 高分, 极佳评分, 超高分辨率
3. 推荐负面提示
低分辨率, 结构畸形, 手部缺陷, 文字, 错误, 缺指, 多指, 少指, 裁剪不当, 最差质量, 低质量, 低分, 差评, 一般评分, 签名, 水印, 用户名, 模糊
4. 最优参数
- CFG尺度: 4-7(推荐5)
- 采样步数: 25-28(推荐28)
- 推荐采样器: 欧拉祖先(Euler a)
5. 推荐分辨率
方向 |
尺寸 |
宽高比 |
正方形 |
1024x1024 |
1:1 |
横向 |
1152x896 |
9:7 |
|
1216x832 |
3:2 |
|
1344x768 |
7:4 |
|
1536x640 |
12:5 |
纵向 |
896x1152 |
7:9 |
|
832x1216 |
2:3 |
|
768x1344 |
4:7 |
|
640x1536 |
5:12 |
6. 完整提示词示例
1女孩, 萤火虫(崩坏:星穹铁道), 崩坏系列, 崩坏:星穹铁道, 安全内容, 休闲装, 单人, 注视观众, 户外, 微笑, 伸手朝向观众, 夜晚, 杰作级, 高分, 极佳评分, 超高分辨率
特殊标签
模型支持多种特殊标签,可用于精确控制生成效果。这些标签经过严格加权测试,能确保不同提示词下的输出稳定性。
质量标签
直接影响图像整体质量的基础控制标签:
 |
 |
使用"杰作级, 最佳质量" 标签(无负面提示) |
使用"低质量, 最差质量" 标签(无负面提示) |
评分标签
比基础质量标签更精细的评分控制:
 |
 |
使用"高分, 极佳评分" 标签(无负面提示) |
使用"差评, 低分" 标签(无负面提示) |
时代标签
控制不同年代艺术风格的标签:
 |
 |
使用"2007年风格" 标签的初音未来 |
使用"2023年风格" 标签的初音未来 |
内容分级标签
控制生成内容安全等级的标签(需依法合规使用):
训练详情
模型采用尖端硬件与优化超参数训练,技术规格如下:
参数 |
值 |
硬件 |
7×H100 80GB SXM5 |
训练图像量 |
8,401,464张 |
UNet学习率 |
2.5e-6 |
文本编码器学习率 |
1.25e-6 |
调度器 |
带热身的恒定调度 |
热身步数 |
总步数5% |
批量大小 |
32 |
梯度累积步数 |
2 |
训练分辨率 |
1024×1024 |
优化器 |
Adafactor |
输入扰动噪声 |
0.1 |
去偏估计损失 |
启用 |
混合精度 |
fp16 |
致谢
本项目得益于以下组织与个人的开创性工作:
- Stability AI、Novel AI与Waifu Diffusion团队的技术贡献
- Main提供的启动资金支持
特别感谢社区成员的支持,尤其是:
- Moescape AI:模型分发与测试合作伙伴
- Lesser Rabbit:提供计算资源与研究资助
- Kohya SS:开发开源训练框架
- discus0434:开发领先的美学预测器2.5
- 早期测试者提供的质量保证反馈
贡献者
核心团队成员:
模型开发
交互界面
运营与质检
数据处理
新增筹款渠道
我们现通过GitHub Sponsors支持研发工作,您的捐助将助力AI技术发展。
支持方式:
- 加密货币捐赠:ETH/USDT/USDC至
0xd8A1dA94BA7E6feCe8CfEacc1327f498fCcBFC0C
- GitHub赞助:点击链接
- 分享传播:推广模型作品
- 反馈建议:帮助改进模型
为何使用加密货币?
此前通过PayPal收款遭遇账户封禁,尽管说明项目用途仍未能解封,迫使我们退款并寻求更透明的筹款方式。
非加密货币捐赠
如需其他捐赠方式,请通过[Discord服务器](https://discord.gg/cqh9tZgbGc)联系我们。
加入Discord社区
欢迎加入我们的讨论群组:
局限性
- 提示格式:仅适配标签式提示,自然语言效果有限
- 人体结构:复杂手势与手指计数可能不准确
- 文字生成:不支持图像内文字渲染
- 新角色:近期角色因训练数据有限可能精度不足
- 多角色场景:需精心设计提示词
- 高分辨率:超过训练分辨率(1024×1024)可能质量下降
- 风格一致性:需特定风格标签强化效果
许可证
本模型完全遵循原始CreativeML Open RAIL++-M许可证,条款包括:
- ✅ 允许:商用、修改、分发、私有使用
- ❌ 禁止:违法用途、生成有害内容、歧视性应用
- ⚠️ 要求:包含许可证副本、注明修改、保留声明
- 📝 免责:按"原样"提供,无任何担保
完整条款请参阅原始SDXL许可证。