许可证:deepfloyd-if-license
额外授权提示:
DeepFloyd许可协议
本许可协议(以下简称“协议”)由您(或您所代表的雇主或其他实体,以下简称“被许可方”或“您”)与Stability AI Ltd.(以下简称“Stability AI”或“我们”)共同订立,适用于您使用Stability AI根据本协议提供的任何计算机程序、算法、源代码、目标代码或软件(以下简称“软件”),以及Stability AI提供的与软件相关的规格说明书、手册、文档和其他书面材料(以下简称“文档”)。
点击下方的“我接受”或使用软件即表示您同意本协议的条款。若您不同意本协议,则无权使用软件或文档(合称“软件产品”),并须立即停止使用。若您代表雇主或其他实体同意受本协议约束,您向Stability AI声明并保证您拥有完全法律权限使雇主或该实体受本协议约束。若无相应权限,您不得代表雇主或其他实体接受本协议或访问软件产品。
1. 许可授予
a. 在您遵守文档及第2、3、5条的前提下,Stability AI授予您一项非独占、全球性、不可转让、不可分许可、可撤销、免版税的有限许可,允许您基于Stability AI的著作权仅为非商业研究目的复制、分发和创作软件的衍生作品。上述许可仅限您个人使用,未经Stability AI事先书面同意,您不得转让或分许可本协议或协议下的任何权利或义务;任何此类转让或分许可将无效,并自动立即终止本协议。
b. 您可为配合上述软件许可合理复制文档。
c. 本节1(许可授予)明确规定的权利授予是软件产品中对您的完整权利授予,不通过弃权、禁止反言、默示、衡平法或其他方式授予任何其他许可。Stability AI及其许可方保留本协议未明确授予的所有权利。
2. 限制
您不得且不得允许、协助或促使任何第三方:
a. 出于以下目的全部或部分使用、修改、复制、创作衍生作品或分发软件产品(或其衍生作品、包含软件产品的作品或软件生成的任何数据):(i) 任何商业或生产目的;(ii) 军事目的或核技术服务;(iii) 监控目的,包括与监控相关的研究或开发;(iv) 生物识别处理;(v) 以侵犯、盗用或违反第三方权利的方式;(vi) 违反任何适用法律及隐私或安全法律、法规、指令或政府要求(包括《通用数据保护条例》(欧盟2016/679号法规)、《加州消费者隐私法》及所有关于生物信息处理的法律)的方式;
b. 删除或修改软件产品上的版权和其他专有声明;
c. 使用任何设备、软件或其他手段规避或移除Stability AI用于保护软件的安全措施,或绕过使用限制,或启用Stability AI禁用的功能;
d. 对软件产品施加任何更改、限制或与本协议条款不一致的条款;
e. 1) 违反任何适用的美国及非美国出口管制和贸易制裁法律(“出口法律”);2) 直接或间接出口、再出口、提供或转让软件产品至:(a) 出口法律禁止的任何个人、实体或国家;(b) 美国或非美国政府限制名单上的任何人;(c) 用于出口法律禁止的目的(包括核、化学或生物武器或导弹技术应用);3) 若您或他们位于全面制裁地区、被列入任何限制名单或用于出口法律禁止的目的,则不得使用或下载软件产品;4) 不得通过IP代理或其他方法隐藏位置。
3. 署名
分发软件产品(或其衍生作品或包含软件产品的作品)时,您必须提供:(i) 本协议副本;(ii) 以下署名声明:“DeepFloyd根据DeepFloyd许可授权使用,版权归Stability AI Ltd.所有。”
4. 免责声明
软件产品“按原样”及“包含所有瑕疵”提供,无任何明示或默示担保。Stability AI明确否认所有与软件产品相关的明示或默示保证,包括但不限于适销性、特定用途适用性、所有权、满意质量或不侵权的默示保证。Stability AI不保证软件产品无错误、无病毒或其他有害组件,或产生特定结果。
5. 责任限制
在法律允许的最大范围内,Stability AI不对以下情况承担责任:(A) 基于合同、侵权、疏忽、严格责任、担保或其他理论;(B) 任何间接、后果性、示范性、附带、惩罚性或特殊损害赔偿或利润损失,即使已被告知可能发生此类损害。软件产品及其组件和输出(合称“软件材料”)未设计或意图用于任何可能因软件材料故障导致人身伤害(包括潜在歧视或侵犯隐私权)或严重物理、财产或环境损害(“高风险用途”)的场景。若您选择将软件材料用于高风险用途,需自担风险。您同意制定并实施适当的决策和风险缓解程序,确保即使软件材料故障,受影响人员或财产的安全仍保持在合理、适当且合法的水平。
6. 赔偿
您应赔偿并使Stability AI及其关联方免受因以下原因引起的任何索赔、损失或费用:(a) 您访问或使用软件产品(包括高风险用途);(b) 您违反本协议;(c) 您侵犯他人权利(包括知识产权或隐私权)。您需及时通知Stability AI此类索赔并配合辩护。Stability AI有权单独控制索赔的辩护或和解。本赔偿条款是对您与Stability AI书面协议中其他赔偿或补救措施的补充。
7. 终止与存续
a. 您违约时本协议自动终止。
b. 我们可随时通过通知(包括电子方式)部分或全部终止本协议。
c. 以下条款在协议终止后仍有效:第2条(限制)、第3条(署名)、第4条(免责声明)、第5条(责任限制)、第6条(赔偿)、第7条(终止与存续)、第8条(第三方材料)、第9条(商标)、第10条(适用法律与争议解决)及第11条(其他)。
8. 第三方材料
软件产品可能包含受第三方许可条款约束的第三方组件(包括开源软件)。您与第三方的交互及使用第三方材料的行为由您自行负责。Stability AI不对第三方材料作任何控制、认可或保证,您需自担风险使用。
9. 商标
本协议未授予您任何商标许可,未经Stability AI书面许可,不得使用其名称或标志,除非为本协议“署名”条款所需。
10. 适用法律与争议解决
本协议受加州法律管辖,不考虑法律冲突原则。任何争议应在加州圣马特奥县的联邦或州法院解决,双方不可撤销地服从其管辖。
11. 其他
若本协议任何条款无效,不影响其余条款的效力。Stability AI未行使权利不构成弃权。本协议不授予第三方受益人权利。本协议及文档构成双方关于协议主题的完整理解,取代所有其他书面或口头协议。任何修改需双方授权代表书面签署。
额外授权字段:
- 组织/隶属关系:文本
- 先前相关出版物:文本
- 我接受上述许可协议,并仅将软件用于非商业研究目的:复选框
标签:
IF-II-M-v1.0
DeepFloyd-IF 是一款基于像素的文本到图像三级级联扩散模型,能够生成具有最新技术水平的高真实感和语言理解能力的图像。该模型高效卓越,在COCO数据集上实现了零样本FID-30K得分6.66
。
灵感来源于 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

模型详情
- 开发团队: DeepFloyd, StabilityAI
- 模型类型: 基于像素的文本到图像级联扩散模型
- 级联阶段: II
- 参数量: 4.5亿
- 支持语言: 主要为英语,其次为其他罗曼语系语言
- 许可证: DeepFloyd IF许可协议
- 模型描述: DeepFloyd-IF 由冻结的文本模块和三个像素级联扩散模块组成,分别生成64x64、256x256和1024x1024分辨率的图像。所有阶段均使用基于T5变换器的冻结文本编码器提取文本嵌入,再输入增强交叉注意力和注意力池化的UNet架构。
- 更多资源: GitHub, 官网, 所有链接
使用 diffusers
IF 已集成至 🤗 Hugging Face 🧨 diffusers库,优化后可在仅14GB VRAM的GPU上运行。
使用前需接受使用条款:
- 确保拥有 Hugging Face账户 并登录
- 在 DeepFloyd/IF-I-M-v1.0 模型卡中接受许可证
- 本地登录:安装
huggingface_hub
pip install huggingface_hub --upgrade
在Python中运行登录函数:
from huggingface_hub import login
login()
输入您的 Hugging Face Hub访问令牌。
安装依赖:
pip install diffusers accelerate transformers safetensors sentencepiece
运行模型
默认情况下,diffusers
使用 模型CPU卸载 在14GB VRAM上运行整个IF流程。
若使用 torch>=2.0.0
,请移除所有 enable_xformers_memory_efficient_attention()
调用。
加载所有阶段并卸载至CPU
from diffusers import DiffusionPipeline
from diffusers.utils import pt_to_pil
import torch
stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-M-v1.0", variant="fp16", torch_dtype=torch.float16)
stage_1.enable_model_cpu_offload()
stage_2 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-II-M-v1.0", text_encoder=None, variant="fp16", torch_dtype=torch.float16)
stage_2.enable_model_cpu_offload()
safety_modules = {"feature_extractor": stage_1.feature_extractor, "safety_checker": stage_1.safety_checker, "watermarker": stage_1.watermarker}
stage_3 = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-x4-upscaler", **safety_modules, torch_dtype=torch.float16)
stage_3.enable_model_cpu_offload()
生成示例
prompt = '袋鼠穿橙色卫衣和蓝色太阳镜站在埃菲尔铁塔前举着"深度学习"标牌的照片'
prompt_embeds, negative_embeds = stage_1.encode_prompt(prompt)
generator = torch.manual_seed(0)
image = stage_1(prompt_embeds=prompt_embeds, negative_prompt_embeds=negative_embeds, generator=generator, output_type="pt").images
pt_to_pil(image)[0].save("./if_stage_I.png")
image = stage_2(image=image, prompt_embeds=prompt_embeds, negative_prompt_embeds=negative_embeds, generator=generator, output_type="pt").images
pt_to_pil(image)[0].save("./if_stage_II.png")
image = stage_3(prompt=prompt, image=image, generator=generator, noise_level=100).images
image[0].save("./if_stage_III.png")
更多优化方法详见Diffusers文档:
详细使用指南请参考 IF博客 和 文档。
Diffusers Dreambooth脚本支持使用单GPU(约28GB VRAM)通过参数高效微调 🎨 [训练IF](https://h