Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1开源动漫模型 - 基于百万图文对生成中文动漫图像

首页

Taiyi Stable Diffusion 1B Anime Chinese V0.1

由 IDEA-CCNL 开发

首个开源的中文Stable Diffusion动漫模型，基于100万筛选过的动漫中文图文对训练

文本生成图像中文开源协议:Openrail #中文动漫生成 #二次元文生图 #高分辨率优化

下载量 59

发布时间 : 1/10/2023

模型简介

基于Stable Diffusion的中文动漫文生图模型，专注于生成高质量的动漫风格图像

模型特点

中文动漫特化

专门针对中文动漫内容优化，能更好地理解和生成中文描述的动漫图像

高质量训练数据

基于100万筛选过的动漫中文图文对进行训练，包含1万高质量数据

两阶段微调训练

采用两阶段微调训练策略，提升模型生成质量

模型能力

文本到图像生成

动漫风格图像生成

中文提示词理解

风格迁移

图像超分辨率

使用案例

动漫创作

动漫角色设计

通过文本描述生成动漫角色形象

可生成各种风格的动漫角色，如绿发女孩、金发男孩等

场景设计

生成动漫风格的场景图像

可生成城市、乡村、室内外等各种场景

艺术创作

风格迁移

将现实照片转换为动漫风格

示例中展示了将明星照片动漫化的效果

🚀 Taiyi-Stable-Diffusion-1B-Chinese-v0.1

Taiyi-Stable-Diffusion-1B-Chinese-v0.1是首个开源的中文Stable Diffusion动漫模型，基于100万筛选过的动漫中文图文对训练，可用于文生图、风格迁移等多模态任务。

🚀 快速开始

环境准备

本模型非常推荐使用webui的方式使用，webui提供了可视化的界面加上一些高级修图、超分功能。你可以参考 Taiyi Stable Difffusion WebUI 进行配置。

半精度推理（CUDA）

添加 torch_dtype=torch.float16 和 device_map="auto" 可以快速加载 FP16 的权重，以加快推理速度。更多信息见 the optimization docs。

# !pip install git+https://github.com/huggingface/accelerate
import torch
from diffusers import StableDiffusionPipeline
torch.backends.cudnn.benchmark = True
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1", torch_dtype=torch.float16)
pipe.to('cuda')

prompt = '1个女孩,绿色头发,毛衣,看向阅图者,上半身,帽子,户外,下雪,高领毛衣'
image = pipe(prompt, guidance_scale=7.5).images[0]  
image.save("1个女孩.png")

模型微调

✨ 主要特性

中文支持：首个开源的中文Stable Diffusion动漫模型，基于大量中文图文对训练，对中文语境有更好的理解和生成效果。
多模态应用：可进行文生图、风格迁移等多模态任务，满足不同的创意需求。
持续优化：模型为初步版本，后续会持续更新优化并开源。

📦 安装指南

文档未提及具体安装步骤，可参考 Taiyi Stable Difffusion WebUI 进行环境配置。

💻 使用示例

基础用法

以下是一个文生图的基础示例：

1个女孩,绿眼,棒球帽,金色头发,闭嘴,帽子,看向阅图者,短发,简单背景,单人,上半身,T恤
Negative prompt: 水彩,漫画,扫描件,简朴的画作,动画截图,3D,像素风,原画,草图,手绘,铅笔
Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 3900970600, Size: 512x512, Model hash: 7ab6852a

生成图片的图片是512 * 512（大小为318kb）：

高级用法

超分处理

善用超分模型可以提升图片质量。例如在webui里面选择extra里的R-ESRGAN 4x+ Anime6B模型对图片质量进行超分：

原始图片：512 * 512（大小为318kb）
超分模型选择：
超分后图片：2048 * 2048（大小为2.6Mb）

风格迁移与文生图示例

类型	prompt1	prompt2
风格迁移	-	-
展示图片		-
文生图	1个男生,帅气,微笑,看着阅图者,简单背景,白皙皮肤, 上半身,衬衫,短发,单人	1个女孩,绿色头发,毛衣,看向阅图者,上半身,帽子,户外,下雪,高领毛衣
展示图片
文生图	户外,天空,云,蓝天,无人,多云的天空,风景,日出,草原	室内,杯子,书,无人,窗,床,椅子,桌子,瓶子,窗帘,阳光, 风景,盘子,木地板,书架,蜡烛,架子,书堆,绿植,梯子,地毯,小地毯
展示图片
文生图	户外,天空,水,树,无人,夜晚,建筑,风景,反射,灯笼,船舶, 建筑学,灯笼,船,反射水,东亚建筑	建筑,科幻,城市,城市风景,摩天大楼,赛博朋克,人群
展示图片
文生图	无人,动物,(猫:1.5),高清,棕眼	无人,动物,(兔子:1.5),高清,棕眼
展示图片

📚 详细文档

模型分类

属性	详情
需求	特殊
任务	多模态
系列	太乙
模型	Stable Diffusion
参数	1B
额外	Chinese

模型信息

我们将两份动漫数据集（100万低质量数据和1万高质量数据），基于 IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1 模型进行了两阶段的微调训练，计算开销是4 x A100 训练了大约100小时。该版本只是一个初步的版本，我们将持续优化并开源后续模型，欢迎交流。

🔧 技术细节

本模型基于Stable Diffusion架构，使用了100万筛选过的动漫中文图文对进行训练。在训练过程中，采用了两阶段微调训练的方法，使用4 x A100进行了约100小时的训练。

📄 许可证

本模型采用 CreativeML OpenRAIL-M 许可证。在使用模型前，你需要阅读完整的许可证信息：https://huggingface.co/spaces/CompVis/stable-diffusion-license。通过点击“Access repository”，你同意你的 联系信息（电子邮件地址和用户名）可以与模型作者共享。

📚 引用

如果您在您的工作中使用了我们的模型，可以引用我们的总论文：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也可以引用我们的网站：

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}

⚠️ 重要提示

你不能使用该模型故意生成或分享非法或有害的输出或内容。

IDEA-CCNL对您生成的输出不主张任何权利，您可以自由使用它们，并对其使用负责，且不得违反许可证中的规定。

您可以重新分发模型权重并将模型用于商业用途和/或作为服务。如果这样做，请务必包含与许可证中相同的使用限制，并向所有用户提供一份CreativeML OpenRAIL-M许可证副本。