许可证:DeepFloyd IF许可证
额外授权提示:
DeepFloyd许可协议
本许可协议(以下简称“协议”)由您(或代表雇主或其他实体签署的“被许可方”)与Stability AI Ltd.(“Stability AI”)共同订立,适用于您使用Stability AI根据本协议提供的任何计算机程序、算法、源代码、目标代码或软件(“软件”)以及相关文档(“文档”)。点击“接受”或使用软件即表示您同意本协议条款。若不同意,您无权使用软件或文档(合称“软件产品”),并须立即停止使用。若您代表雇主签署本协议,需确保拥有完整法律授权。未经授权接受协议或访问软件产品均属无效。
1. 许可授予
a. 在遵守文档及第2、3、5条的前提下,Stability AI授予您非独占、全球性、不可转让、不可分许可、可撤销、免版税的有限许可,仅限非商业研究用途复制、分发及创建软件衍生作品。此许可为个人授权,未经书面同意不得转让或分许可,否则协议自动终止。
b. 您可为配合上述软件许可合理复制文档。
c. 本节所述权利为软件产品的完整授权,未明示授予的其他权利均予保留。
2. 限制条款
您不得(或允许、协助第三方):
a. 将软件产品用于(i)商业/生产;(ii)军事/核技术;(iii)监控;(iv)生物识别;(v)侵犯第三方权利;(vi)违反隐私/安全法律(如GDPR、CCPA等)的用途。
b. 移除软件产品上的版权声明。
c. 规避Stability AI的安全措施或功能限制。
d. 附加与本协议冲突的条款。
e. 违反出口管制法,包括向禁运国家/实体提供软件产品或伪装地理位置。
3. 署名要求
分发软件产品时须附带:(i)本协议副本;(ii)署名声明:“DeepFloyd使用DeepFloyd许可,版权所有© Stability AI Ltd.”
4. 免责声明
软件产品“按原样”提供,不附带任何明示或默示担保,包括适销性、特定用途适用性等。Stability AI不保证软件无错误、病毒或特定结果。
5. 责任限制
在法律允许范围内,Stability AI不对任何间接、附带、惩罚性损害或利润损失负责。软件产品不适用于可能导致人身伤害、隐私侵犯或环境损害的“高风险用途”,此类使用需自担风险并实施安全措施。
6. 赔偿条款
您须赔偿因以下行为导致的索赔:(a)使用软件产品(含高风险用途);(b)违反协议;(c)侵犯第三方权利(包括知识产权)。
7. 终止与存续
a. 违约即终止协议。
b. Stability AI可随时通知终止。
c. 第2-11条条款终止后仍有效。
8. 第三方材料
软件可能含第三方组件(如开源软件),其使用受第三方许可约束,风险自担。
9. 商标
未经书面许可,不得使用Stability AI商标,除非依“署名”条款要求。
10. 适用法律与争议解决
本协议受加州法律管辖,争议提交加州圣马特奥县法院审理。
11. 其他
无效条款不影响其余条款效力。未行使权利不构成弃权。本协议为双方完整合意,取代所有先前协议。修改需双方书面签署。
额外授权字段:
- 组织/隶属关系:文本
- 既往相关出版物:文本
- 接受协议并承诺仅用于非商业研究:复选框
标签:
推理:禁用
IF-I-XL-v1.0
DeepFloyd-IF是基于像素的三级级联扩散模型,能以当前最优的写实水平和语言理解生成图像,零样本COCO FID-30K得分达6.66。
灵感来源:《具备深度语言理解的写实文本生成图像扩散模型》

模型详情
- 开发方:DeepFloyd, StabilityAI
- 类型:像素级文本生成图像级联扩散模型
- 级联阶段:I
- 参数量:43亿
- 语言:主要英语,次要罗曼语系
- 许可证:DeepFloyd IF许可协议
- 描述:模型由冻结文本模块和三级像素扩散模块组成,分辨率逐级提升(64x64→256x256→1024x1024),均采用T5编码器提取文本嵌入并输入UNet架构。
- 资源:GitHub | 官网 | 全链接
通过diffusers
使用
需14GB显存即可运行:
- 登录Hugging Face并接受模型许可
- 安装库:
pip install diffusers accelerate transformers safetensors sentencepiece
- 登录Hugging Face Hub:
from huggingface_hub import login
login()
加载模型(CPU卸载):
stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-XL-v1.0", variant="fp16", torch_dtype=torch.float16)
stage_1.enable_model_cpu_offload()
生成示例:
prompt = "袋鼠穿橙色卫衣戴蓝墨镜站在埃菲尔铁塔前举牌‘深度学习非常深’"
prompt_embeds, _ = stage_1.encode_prompt(prompt)
image = stage_1(prompt_embeds=prompt_embeds, generator=torch.manual_seed(0)).images[0]
image.save("output.png")
优化建议:
训练
数据:12亿图文对(基于LAION-A及内部数据集)
硬件:64台A100(8卡并行)
优化器:AdamW8bit + DeepSpeed ZeRO-1
批次:3072
学习率:单周期余弦策略(初始2e-6,峰值5e-5)

评估结果
FID-30K:6.66

用途
研究用途:
- 艺术创作与设计
- 生成内容安全部署
- 模型局限性研究
- 教育/创意工具开发
禁止用途:
- 生成令人不适/歧视性内容
- 侵犯隐私/版权
- 虚假信息传播
- 暴力/成人内容
局限性与偏差
局限性:
- 未完全实现照片级真实
- 主要支持英语,其他语言效果较差
- 训练数据含成人内容(已部分过滤)
偏差:
模型可能强化西方文化默认设定,非英语提示效果显著较差,使用时需注意偏见风险。
本模型卡由DeepFloyd团队编写,基于Stable Diffusion模型卡改编。