许可证:其他
标签:
Cool Japan Diffusion 2.1.0 模型卡片

注意事项:自2023年1月10日起,中国将对图像生成人工智能实施法律限制。(针对中国境内用户的提醒)
英文版请见此处。
简介
Cool Japan Diffusion(学习版)是基于Stable Diffusion微调的模型,专注于表现动漫、漫画、游戏等“酷日本”文化。请注意,此模型与日本内阁府的“酷日本”战略无直接关联。
许可证说明
本模型在原有许可证CreativeML Open RAIL++-M License基础上,新增了非商业用途限制条款。此限制源于对创意产业潜在负面影响的担忧。若该担忧消除,后续版本将恢复原许可证并允许商用。原许可证日文翻译可参考此链接。营利企业用户请咨询法务部门,个人爱好者遵循常识使用即可。根据许可证要求,任何模型修改仍需继承本许可协议。
法律与伦理
本模型在日本开发,适用日本法律。
- 合法性声明:模型训练依据《著作权法》第30条之4主张合法;模型分发不构成著作权法或刑法第175条的共犯或帮助犯,具体可参考柿沼律师的观点。生成内容需遵守各国法律法规。
- 伦理考量:作者认为未经原作者许可的分发行为存在伦理问题,但法律上无需授权(类似搜索引擎)。本次分发亦旨在探讨相关伦理议题。
使用方法
快速体验可访问此Space。详细教程见使用手册,模型下载地址点击此处。
以下是标准模型卡片的日译中内容:
模型详情
- 开发者:Robin Rombach, Patrick Esser, Alfred Increment
- 模型类型:基于扩散模型的文本生成图像模型
- 语言:日语
- 许可证:CreativeML Open RAIL++-M-NC License
- 模型描述:根据提示词生成高质量图像,算法基于Latent Diffusion Model和OpenCLIP-ViT/H。
- 参考文献:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
使用示例
与Stable Diffusion v2用法相同,推荐两种方式:
- Web UI:参照使用手册配置
- Diffusers库:安装依赖后运行以下代码:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-0-beta"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "动漫风格,黑短发红瞳少女肖像,和服,全彩插画,官方艺术,4K高清"
negative_prompt = "低质量,面部畸形,解剖结构错误,低分辨率,JPEG伪影,2D/3D/CG混用,文字"
image = pipe(prompt, negative_prompt=negative_prompt).images[0]
image.save("girl.png")
提示:
- 使用xformers可加速
- GPU内存不足时启用
pipe.enable_attention_slicing()
适用场景
- 竞赛:如AI艺术大奖赛(需提前申报合规性)
- 媒体报道:包括商业机构(基于公众知情权考量)
- 文化推广:向国际受众介绍“酷日本”文化
- 研发:模型微调、性能评估(FID指标)、跨模型独立性验证
- 教育:艺术院校毕设、学术研究、AI技术教学
- 个人表达:社交媒体内容创作
非适用场景
- 伪造事实性内容
- 营利性视频内容直接使用
- 商业服务集成
- 干扰教学秩序
- 其他损害创意产业的行为
禁止用途
- 数字赝品:避免生成受版权保护的现有角色(法律风险)
- 未经授权的图生图:侵犯原作著作权
- 淫秽内容传播:违反刑法第175条
- 虚假信息:可能构成妨碍业务罪
模型局限性
- 存在与Stable Diffusion相同的偏差问题
训练数据
- VAE部分:60万类合规日本本土数据(经数据增强)
- U-Net部分:80万组合规图文配对数据
训练配置
- 硬件:RTX 3090
- 优化器:AdamW
- 梯度累积:1
- 批大小:1
环境影响
- 硬件类型:RTX 3090
- 训练时长:300小时
- 碳排放:可忽略
本模型卡片基于Stable Diffusion v2由Alfred Increment编写