I

IF II L V1.0

由 DeepFloyd 开发
DeepFloyd-IF是基于像素的三级级联扩散模型,能以卓越的写实性和语言理解生成图像,零样本FID-30K得分达6.66。
下载量 33.76k
发布时间 : 3/21/2023
模型介绍
内容详情
替代品

模型简介

像素级文本到图像级联扩散模型,由冻结文本模块和三级像素扩散模块组成,分辨率逐级提升(64x64→256x256→1024x1024),采用T5编码器提取文本嵌入并输入UNet架构。

模型特点

高写实性图像生成
零样本FID-30K得分6.66(COCO数据集),具有卓越的细节表现力
三级级联架构
通过64x64→256x256→1024x1024三阶段逐步提升分辨率,优化生成质量
深度语言理解
采用T5文本编码器,实现精准的文本-图像语义对齐
显存优化设计
支持CPU卸载技术,最低仅需14GB显存即可运行

模型能力

文本到图像生成
高分辨率图像上采样
多语言提示理解
艺术风格创作

使用案例

艺术创作
概念设计
快速生成服装、场景等创意概念图
示例:'袋鼠穿橙色卫衣戴蓝墨镜站在埃菲尔铁塔前'的精准生成
教育研究
生成模型安全性研究
分析扩散模型的偏见与安全限制
内置军事/监控等禁用场景限制