cool-japan-diffusion-2-1-1-beta开源模型 - 免费生成日本动漫风图像

首页

Cool Japan Diffusion 2 1 1 Beta

由 aipicasso 开发

基于Stable Diffusion微调的动漫风格图像生成模型，专注于表现日本动漫、漫画、游戏等文化内容

图像生成开源协议:其他 #动漫风格生成 #日本文化特化 #非商业限制

下载量 19

发布时间 : 1/11/2023

模型简介

Cool Japan Diffusion是基于Stable Diffusion微调的文本生成图像模型，专注于生成动漫、漫画、游戏等日本文化风格的图像内容。模型在日本法律框架下开发，适用于非商业用途的文化创作和学术研究。

模型特点

日本动漫风格优化

专门针对动漫、漫画、游戏等日本文化内容进行优化训练

非商业许可

为避免对创意产业造成潜在影响，当前版本仅限非商业用途

法律合规性

在日本法律框架下开发，训练过程依据《著作权法》主张合法性

模型能力

根据文本描述生成动漫风格图像

支持高分辨率图像生成(最高4K)

支持负面提示词过滤

使用案例

艺术创作

动漫角色设计

根据文字描述生成原创动漫角色形象

高质量动漫风格肖像

插画创作

辅助艺术家进行概念设计和插画创作

风格统一的艺术作品

文化推广

日本文化展示

生成具有日本文化特色的视觉内容

和服、神社等传统元素图像

学术研究

AI艺术研究

用于生成式AI在艺术创作领域的研究

可分析的艺术创作样本

🚀 Cool Japan Diffusion 2.1.1 Beta 模型卡片

Cool Japan Diffusion（用于学习）是对Stable Diffsion进行微调后，专门用于表现动漫、漫画、游戏等酷日本元素的模型。需注意，该模型与内阁府的酷日本战略并无特别关联。

🚀 快速开始

手軽に楽しみたい方は、こちらのSpaceをお使いください。詳しい本モデルの取り扱い方はこちらの取扱説明書にかかれています。モデルはここからダウンロードできます。

✨ 主要特性

这个模型能够根据提示生成合适的图像，其算法采用了 Latent Diffusion Model 和 OpenCLIP-ViT/H。

📦 安装指南

安装依赖库

使用 🤗's Diffusers library 时，首先需要执行以下脚本安装库：

pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy

💻 使用示例

基础用法

from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch

model_id = "aipicasso/cool-japan-diffusion-2-1-1-beta"

scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)#,use_auth_token="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")
pipe = pipe.to("cuda")

prompt = "anime, a portrait of a girl with black short hair and red eyes, kimono, full color illustration, official art, 4k, detailed"
negative_prompt="(((deformed))), blurry, ((((bad anatomy)))), bad pupil, disfigured, poorly drawn face, mutation, mutated, (extra limb), (ugly), (poorly drawn hands), bad hands, fused fingers, messy drawing, broken legs censor, low quality, ((mutated hands and fingers:1.5), (long body :1.3), (mutation, poorly drawn :1.2), ((bad eyes)), ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 2d, 3d, cg, text"
image = pipe(prompt,negative_prompt=negative_prompt, width=512, height=512, num_inference_steps=20).images[0]
image.save("girl.png")

高级用法

⚠️ 重要提示

xformers を使うと早くなるらしいです。

💡 使用建议

GPUを使う際にGPUのメモリが少ない人は pipe.enable_attention_slicing() を使ってください。

📚 详细文档

模型详细信息

属性	详情
开发者	Robin Rombach, Patrick Esser, Alfred Increment
模型类型	基于扩散模型的文本到图像生成模型
语言	日语
许可证	CreativeML Open RAIL++-M-NC License
模型说明	这个模型能够根据提示生成合适的图像，其算法采用了 Latent Diffusion Model 和 OpenCLIP-ViT/H。
参考文献	@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

模型的使用场景

预期用途

竞赛：可向 AIアートグランプリ投稿，但需公开用于微调的所有数据，并确保符合评审标准。若有相关需求，可在Hugging Face的社区告知作者。
图像生成AI报道：无论是公共广播还是营利企业，均可使用该模型进行相关报道。因为作者认为公众有了解图像合成AI信息的权利，且尊重报道自由。
酷日本介绍：向其他国家的人解释酷日本的含义。Alfred Increment发现很多其他国家的留学生因被酷日本吸引而来日本，但却常常对日本所谓“不酷”的酷日本文化感到失望，因此希望大家能更加自豪地展示自己国家令人向往的文化。
研发：可在Discord上使用该模型进行各种操作，如提示工程、微调（包括追加学习，如DreamBooth等）、与其他模型合并等。还可研究Latent Diffusion Model与酷日本元素的适配性，通过FID等指标检查本模型的性能，使用校验和或哈希函数检查本模型是否独立于Stable Diffusion以外的模型。
教育：适用于美术生、专科学校学生的毕业作品，大学生的毕业论文或课题制作，以及教师向学生介绍图像生成AI的现状。
自我表达：可在SNS上表达自己的情感和想法。
Hugging Face社区用途：可使用日语或英语在社区提问。

非预期用途

不能将生成的内容当作事实进行表达。
不得用于盈利性的YouTube等内容。
不能直接作为商业服务提供。
不要给老师带来困扰。
避免对创作行业造成负面影响。

禁止使用或恶意使用场景

请勿公开数字赝品 (Digital Forgery)，尤其是涉及现有角色的内容，因为这可能违反著作权法。不过，对于研究目的的相关推文（如このツイート）是允许的。
未经他人许可，请勿对其作品进行Image-to-Image操作，以免违反著作权法。
请勿传播淫秽物品，否则可能违反刑法175条。同时，要遵守行业规范。
不要将没有事实依据的内容当作事实进行传播，以免触犯威力业务妨害罪，如传播虚假新闻。

模型的局限性和偏差

模型的局限性

目前对模型的局限性了解尚不充分。

偏差

该模型存在与Stable Diffusion相同的偏差，请使用者注意。

学习信息

学习数据

VAE：主要使用了60万种遵守日本国内法的数据（通过数据扩充可生成无限数量的样本），这些数据排除了Danbooru等未经授权的转载网站。
U-Net：使用了80万对遵守日本国内法的数据，同样排除了Danbooru等未经授权的转载网站。

学习过程

对Stable Diffusion的VAE和U-Net进行了微调。

硬件：RTX 3090
优化器：AdamW
梯度累积：1
批量大小：1

评估结果

文档未提供相关评估结果信息。

环境影响

该模型对环境的影响极小。

硬件类型：RTX 3090
使用时间（单位：小时）：500
云服务提供商：无
学习地点：日本
碳排放量：较少

🔧 技术细节

模型基于 Latent Diffusion Model 和 OpenCLIP-ViT/H 算法，通过对Stable Diffusion的VAE和U-Net进行微调，使用特定的学习数据和学习过程，以实现根据提示生成合适图像的功能。

📄 许可证

本模型的许可证是在原始的 CreativeML Open RAIL++-M License 基础上，除例外情况外，额外添加了禁止商业使用的条款。添加此条款的原因是担心可能对创作行业产生负面影响。如果这种担忧消除，下一版本将恢复原始许可证，允许商业使用。原始许可证的日语翻译可参考这里。在企业工作的人员请与法务部门人员协商。对于用于个人兴趣的用户，只要遵守一般常识，通常无需过于担心。此外，根据许可证规定，即使对本模型进行改造，也需要继承此许可证。