许可证:deepfloyd-if-license
额外授权提示:
DeepFloyd许可协议
本许可协议(以下简称“协议”)由您(或您所代表的雇主或其他实体,统称“被许可方”或“您”)与Stability AI Ltd.(“Stability AI”或“我们”)共同订立,适用于您使用Stability AI根据本协议提供的任何计算机程序、算法、源代码、目标代码或软件(“软件”),以及Stability AI提供的与软件相关的规格说明书、手册、文档和其他书面材料(“文档”)。
点击下方“我接受”或使用软件即表示您同意本协议条款。若不同意,您无权使用软件或文档(合称“软件产品”),并须立即停止使用。若您代表雇主或其他实体接受本协议,您向Stability AI声明并保证您拥有完全法律权限使该实体受本协议约束。若无权限,您不得代表雇主或其他实体接受本协议或访问软件产品。
-
许可授予
a. 在遵守文档及第2、3、5条的前提下,Stability AI授予您一项非独占、全球性、不可转让、不可分许可、可撤销、免版税的有限许可,允许您基于Stability AI的版权权益复制、分发和创建软件衍生作品,仅限非商业研究目的。此许可仅限您个人使用,未经Stability AI事先书面同意,不得转让或分许可本协议下的任何权利或义务;任何此类行为将无效并立即终止本协议。
b. 您可为配合上述软件许可合理复制文档。
c. 本节明确授予的权利是软件产品的完整授权,其他明示或默示许可均不适用。Stability AI及其许可方保留未明确授予的所有权利。
-
限制条款
您不得且不得允许、协助或促使第三方:
a. 将软件产品(或其衍生作品、包含软件产品的作品或软件生成的任何数据)全部或部分用于:(i) 商业或生产目的;(ii) 军事或核技术用途;(iii) 监控目的(包括相关研发);(iv) 生物识别处理;(v) 侵犯第三方权利的方式;(vi) 违反任何适用法律(包括《通用数据保护条例》(欧盟2016/679)、《加州消费者隐私法》及生物信息处理相关法律)的方式。
b. 移除或修改软件产品上的版权或其他专有声明。
c. 使用任何设备、软件或其他手段绕过Stability AI的安全措施或使用限制。
d. 对软件产品附加与本协议冲突的条款。
e. 违反出口管制法律,或向受制裁国家、实体或个人提供软件产品。
-
署名要求
分发软件产品(或其衍生作品)时须附带:(i) 本协议副本;(ii) 署名声明:“DeepFloyd使用DeepFloyd许可,版权归Stability AI Ltd.所有。”
-
免责声明
软件产品“按原样”提供,不附带任何明示或默示保证,包括适销性、特定用途适用性、不侵权等。Stability AI不保证软件产品无错误、无害或产生特定结果。
-
责任限制
在法律允许的最大范围内,Stability AI不对任何间接、附带、惩罚性损害或利润损失负责。软件产品不适用于高风险场景(如可能导致人身伤害、隐私侵犯或环境损害的用途),若擅自使用需自担风险并采取安全措施。
-
赔偿条款
您须赔偿因以下行为导致的Stability AI损失:(a) 使用软件产品(包括高风险使用);(b) 违反本协议;(c) 侵犯第三方权利。
-
终止与存续条款
协议在您违约时自动终止。Stability AI可随时通知终止协议。第2-11条在终止后仍有效。
-
第三方材料
软件产品可能包含受第三方许可约束的组件,使用需自行承担风险。
-
商标使用
未经书面许可,不得使用Stability AI商标(除非为满足署名要求)。
-
适用法律与争议解决
本协议受加州法律管辖,争议提交加州圣马特奥县法院解决。
-
其他条款
无效条款不影响其余条款效力。未行使权利不构成弃权。本协议构成完整合意,取代所有先前协议。
额外授权字段:
- 组织/隶属关系:文本
- 过往相关出版物:文本
- 接受协议并承诺仅用于非商业研究:复选框
标签:
IF-II-L-v1.0
DeepFloyd-IF是基于像素的三级级联扩散模型,能以卓越的写实性和语言理解生成图像,零样本FID-30K得分达6.66(COCO数据集)。
灵感来源:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

模型详情
- 开发方:DeepFloyd, StabilityAI
- 类型:像素级文本到图像级联扩散模型
- 级联阶段:II
- 参数量:12亿
- 主要语言:英语(部分支持其他罗曼语)
- 许可证:DeepFloyd IF许可协议
- 描述:模型由冻结文本模块和三级像素扩散模块组成,分辨率逐级提升(64x64→256x256→1024x1024),采用T5编码器提取文本嵌入并输入UNet架构。
- 资源:GitHub | 官网 | 所有链接
使用diffusers
IF已集成至🤗 Hugging Face 🧨 diffusers库,最低需14GB显存。
准备工作
- 登录Hugging Face账号并接受IF-I-XL-v1.0的许可
- 本地安装
huggingface_hub
并登录:
pip install huggingface_hub --upgrade
from huggingface_hub import login
login()
- 安装依赖:
pip install diffusers accelerate transformers safetensors sentencepiece
运行示例
from diffusers import DiffusionPipeline
from diffusers.utils import pt_to_pil
import torch
stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-XL-v1.0", variant="fp16", torch_dtype=torch.float16)
stage_1.enable_model_cpu_offload()
stage_2 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-II-L-v1.0", text_encoder=None, variant="fp16", torch_dtype=torch.float16)
stage_2.enable_model_cpu_offload()
stage_3 = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-x4-upscaler", torch_dtype=torch.float16)
stage_3.enable_model_cpu_offload()
prompt = "袋鼠穿橙色卫衣戴蓝墨镜站在埃菲尔铁塔前举着'深度学习'牌子"
prompt_embeds, _ = stage_1.encode_prompt(prompt)
image = stage_1(prompt_embeds=prompt_embeds, output_type="pt").images
image = stage_2(image=image, prompt_embeds=prompt_embeds, output_type="pt").images
image = stage_3(prompt=prompt, image=image, noise_level=100).images
image[0].save("output.png")
优化建议:
训练数据
12亿文本-图像对(基于LAION-A及内部数据集),未使用测试/验证集数据。
评估结果
FID-30K: 6.66

用途与限制
适用范围
- 艺术创作与设计
- 生成模型安全性研究
- 教育/创意工具开发
禁用场景
- 生成令人不适/歧视性内容
- 侵犯隐私或版权
- 政治虚假信息
- 暴力/成人内容
局限性
- 非完美写实
- 主要适配英语提示
- 可能反映训练数据偏见(西方文化主导)
本模型卡由DeepFloyd团队编写,基于StableDiffusion模型卡改编。