language: ja
license: creativeml-openrail-m
tags:
-
stable-diffusion
-
stable-diffusion-diffusers
-
text-to-image
inference: false
extra_gated_prompt: >-
获取此模型前还需完成一步。
本模型采用CreativeML OpenRAIL-M许可证,向所有人开放访问,并进一步明确了权利与使用条款。
CreativeML OpenRAIL许可证规定:
- 禁止利用该模型故意生成或传播非法、有害内容
- rinna株式会社对用户生成内容不主张任何权利,使用者可自由运用但须对使用行为负责,且不得违反许可证条款
- 允许商用或作为服务重新分发模型权重。若进行商用,必须包含相同的使用限制条款,并向所有用户提供CreativeML OpenRAIL-M许可证副本(请完整仔细阅读许可证)
完整许可证请查阅:
https://huggingface.co/spaces/CompVis/stable-diffusion-license
点击下方"访问仓库"即表示同意您的联系信息(电子邮箱与用户名)可与模型作者共享。
extra_gated_fields:
我已阅读并同意许可证条款: checkbox
base_model: CompVis/stable-diffusion-v1-4
日语稳定扩散模型卡片

日语稳定扩散是基于潜在文本生成图像的日语专用扩散模型,可根据文本输入生成逼真图像。
本模型基于强大的文本生成图像模型Stable Diffusion训练而成。训练方法详见训练流程。

模型详情
使用示例
首先安装定制化包(该包修改自🤗的Diffusers库):
pip install git+https://github.com/rinnakk/japanese-stable-diffusion
若未登录需先运行:
huggingface-cli login
使用K-LMS调度器运行管道:
import torch
from torch import autocast
from diffusers import LMSDiscreteScheduler
from japanese_stable_diffusion import JapaneseStableDiffusionPipeline
model_id = "rinna/japanese-stable-diffusion"
device = "cuda"
scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)
pipe = JapaneseStableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, use_auth_token=True)
pipe = pipe.to(device)
prompt = "猫の肖像画 油絵"
with autocast("cuda"):
image = pipe(prompt, guidance_scale=7.5)["sample"][0]
image.save("output.png")
注:JapaneseStableDiffusionPipeline
与diffusers的StableDiffusionPipeline
几乎相同,仅添加了初始化模型的必要代码
滥用、恶意使用与超范围使用
注:本节改编自DALLE-MINI模型卡片,同样适用于Stable Diffusion v1
禁止使用本模型故意创建或传播制造敌意/排斥环境的内容,包括:
- 可能引发不适/痛苦/冒犯的内容
- 强化历史或现有刻板印象的内容
超范围使用
本模型未针对事实性内容训练,生成此类内容超出模型能力范围。
滥用与恶意使用
包括但不限于:
- 生成贬低/非人化内容
- 传播歧视性内容或有害刻板印象
- 未经同意的个人仿冒
- 非合意性内容
- 虚假/误导信息
- 极端暴力/血腥内容
- 违反版权条款的内容分享
局限性与偏差
局限性
- 无法达到完美真实感
- 无法生成可读文本
- 复杂组合任务(如"蓝色球体上的红色立方体")表现欠佳
- 人物面部生成可能不理想
- 主要基于日语标注训练,其他语言效果较差
- 自编码部分存在信息损失
- 训练数据来自LAION-5B子集(含成人内容),需额外安全机制
- 存在训练数据记忆现象(可通过CLIP检索工具检测)
偏差
虽然图像生成能力强大,但可能强化社会偏见。由于主要使用日语标注的LAION-5B数据集,其他语言文化的内容可能呈现不足。非日语提示的生成效果显著弱于日语提示。
安全模块
建议配合Diffusers的安全检查器使用,该模块通过比对CLIP文本模型嵌入空间中的概念概率来过滤NSFW内容。
训练
训练数据
使用约1亿张日语标注图像(含LAION-5B日语子集)。
训练流程
受PITI启发分两阶段进行:
- 固定潜在扩散模型,从头训练日语专用文本编码器(将日语描述映射到Stable Diffusion潜在空间)
- 联合微调文本编码器与潜在扩散模型(增强日语风格图像生成能力)
发布日期
2022年9月9日
引用方式
@misc{rinna-japanese-stable-diffusion,
title = {rinna/japanese-stable-diffusion},
author = {Shing, Makoto and Sawada, Kei},
url = {https://huggingface.co/rinna/japanese-stable-diffusion}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
参考文献
@inproceedings{rombach2022high,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {6},
year = {2022},
pages = {10684-10695}
}
本模型卡片由新诚和泽田圭撰写,基于Stable Diffusion v1-4模型卡片与DALL-E Mini模型卡片改编。