license: other
tags:
- stable-diffusion
- text-to-image
inference: false
Picasso Diffusion 1.1 模型卡片

标题:欢迎来到科学事实世界。
英文版本请见此处。
简介
Picasso Diffusion是一款专注于AI艺术的图像生成AI,开发过程中耗费了约7000 GPU小时。
关于许可证
本许可证基于CreativeML Open RAIL++-M License,仅额外添加了禁止商业用途的条款(例外情况除外)。添加此条款的原因是担心可能对创意产业产生负面影响。营利性企业的用户请咨询法务部门人员。个人爱好者使用时只需遵守常识即可,无需过于担心。
法律声明
本模型在日本创建,因此适用日本法律。我们主张本模型的学习过程依据《著作权法》第30条第4款是合法的。同时,本模型的发布根据《著作权法》和《刑法》第175条,不构成直接或协助犯罪。详情请参阅柿沼律师的观点。但请注意,如许可证所述,本模型生成的内容需遵守各项法律法规。
使用方法
想轻松体验的用户可以使用这个Space。模型可从safetensors格式或ckpt格式下载。
以下是通用模型卡片的中文翻译。
模型详情
-
模型类型: 基于扩散模型的文本到图像生成模型
-
语言: 日语
-
许可证: CreativeML Open RAIL++-M-NC License
-
模型描述: 该模型能根据提示生成合适的图像,算法基于Latent Diffusion Model和OpenCLIP-ViT/H。
-
备注:
-
参考文献:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
模型使用示例
使用方法与Stable Diffusion v2相同。提供两种常见方式:
Web UI方式
与Stable Diffusion v2相同,将ckpt或safetensor格式的模型文件及yaml格式的配置文件放入模型文件夹。详细安装方法请参考此文章。建议安装xformers并启用--xformers --disable-nan-check
选项,否则请启用--no-half
选项。
Diffusers方式
使用🤗的Diffusers库。
首先运行以下脚本安装库:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
然后运行以下脚本生成图像:
from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch
model_id = "alfredplpl/picasso-diffusion-1-1"
scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "动漫,杰作,女孩肖像,好学生,4K,细节丰富"
negative_prompt="变形,模糊,解剖结构错误,瞳孔不良,面部扭曲,手部绘制差,多余肢体,丑陋,低质量,突变手部,长身体,低分辨率,JPEG伪影,3D,CG,文字,日文汉字"
images = pipe(prompt,negative_prompt=negative_prompt, num_inference_steps=20).images
images[0].save("girl.png")
注意:
- 使用xformers可加速生成。
- GPU内存不足时可使用
pipe.enable_attention_slicing()
。
预期用途
- 自我表达
- 关于图像生成AI的新闻报道
- 包括公共媒体和营利企业
- 因判断此类信息不会对创意产业产生负面影响,且尊重新闻自由
- 研发
- Discord上的模型应用
- 通过FID等评估模型性能
- 验证本模型与Stable Diffusion以外模型的独立性
- 教育
- 艺术院校学生毕业作品
- 大学生毕业论文或课题
- 教师讲解图像生成AI现状
- Hugging Face社区列出的用途
非预期用途
- 将虚构内容表现为事实
- 盈利性YouTube等内容的使用
- 直接作为商业服务提供
- 干扰教学秩序
- 其他可能损害创意产业的行为
禁止用途及恶意用途
- 请勿公开数字伪造品(Digital Forgery)(可能违反著作权法)
- 未经许可对他人作品进行图生图(可能违反著作权法)
- 勿传播淫秽物品(可能违反《刑法》175条)
- 勿将虚构内容作为事实传播(可能构成妨碍业务罪)
模型的局限性与偏差
局限性
- 扩散模型和大语言模型仍存在许多未知领域,其局限尚未完全明确。
偏差
训练
训练数据
符合日本法律的国内数据与模型,不包括Danbooru等未经授权的转载网站。
训练过程
评估结果
期待第三方评估。
环境影响
- 硬件类型: A100 80GB, V100
- 使用时长(小时): 7000
- 训练地点: 日本
参考文献
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
*本模型卡片基于Stable Diffusion v2编写。