许可证:creativeml-openrail-m
标签:
- stable-diffusion
- stable-diffusion-diffusers
- image-to-image
小部件示例:
- 文本:亚马逊雨林中的高科技太阳能朋克乌托邦
示例标题:亚马逊雨林
- 文本:皮卡丘在埃菲尔铁塔旁享用精致晚餐
示例标题:巴黎的皮卡丘
- 文本:贫民窟中的机械机器人,表现主义风格
示例标题:表现主义机器人
- 文本:一只昆虫机器人正在准备美味佳肴
示例标题:昆虫机器人
- 文本:迪士尼风格雪山顶上的小木屋,artstation风格
示例标题:雪中迪士尼木屋
额外授权提示:
本模型采用CreativeML OpenRAIL-M许可证开放访问,允许所有人使用,并进一步规定了权利和用途。
CreativeML OpenRAIL许可证明确规定:
- 禁止利用模型故意生成或传播非法、有害内容
- 作者对用户生成内容不主张权利,用户可自由使用但需对使用行为负责,且不得违反许可证条款
- 允许商业用途及权重再分发,但须包含相同使用限制条款并向所有用户提供CreativeML OpenRAIL-M副本(请完整仔细阅读许可证)
完整许可证请查阅:https://huggingface.co/spaces/CompVis/stable-diffusion-license
授权访问标题:请阅读许可证以使用此模型
GLIGEN:开放集落地文本到图像生成
GLIGEN模型由威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员联合开发。[StableDiffusionGLIGENPipeline
]能够根据定位输入生成逼真图像。
在提供文本和边界框的基础上,若输入图像,该流程可在指定区域插入文本描述的物体;若无输入图像,则根据描述生成新图像并在定位区域添加物体。模型基于COCO2014D和COCO2014CD数据集训练,采用冻结的CLIP ViT-L/14文本编码器处理定位输入。
本权重需配合🧨 Diffusers库使用。如需使用官方检查点,请访问gligen组织!
模型详情
- 开发者: 李雨恒、刘昊天、吴清阳、沐方舟、杨建伟、高剑峰、李春元、李永宰
- 模型类型: 基于扩散的落地文本生成图像模型
- 支持语言: 英语
- 许可证: CreativeML OpenRAIL M许可证改编自BigScience与RAIL倡议的合作成果,详见BLOOM Open RAIL许可证文章
- 模型描述: 该模型可通过文本提示和边界框生成/修改图像,其潜在扩散模型采用Imagen论文建议的固定预训练文本编码器(CLIP ViT-L/14)
- 资源: GitHub仓库、论文
- 引用格式:
@article{li2023gligen,
author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
title = {GLIGEN: Open-Set Grounded Text-to-Image Generation},
publisher = {arXiv:2301.07093},
year = {2023},
}
使用示例
推荐使用🤗Diffusers库运行GLIGEN。
PyTorch
pip install --upgrade diffusers transformers scipy
使用默认PNDM调度器运行流程:
import torch
from diffusers import StableDiffusionGLIGENPipeline
from diffusers.utils import load_image
pipe = StableDiffusionGLIGENPipeline.from_pretrained(
"masterful/gligen-1-4-inpainting-text-box", variant="fp16", torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
input_image = load_image(
"https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)
prompt = "生日蛋糕"
boxes = [[0.2676, 0.6088, 0.4773, 0.7183]]
phrases = ["生日蛋糕"]
images = pipe(
prompt=prompt,
gligen_phrases=phrases,
gligen_inpaint_image=input_image,
gligen_boxes=boxes,
gligen_scheduled_sampling_beta=1,
output_type="pil",
num_inference_steps=50,
).images
images[0].save("./gligen-1-4-inpainting-text-box.jpg")
用途
直接用途
本模型仅限研究用途,包括:
- 安全部署可能生成有害内容的模型
- 探究生成模型的局限性与偏见
- 艺术创作与设计应用
- 教育/创意工具开发
- 生成模型研究
禁用场景
(改编自DALLE-MINI模型卡)
滥用与恶意使用
禁止用于制造敌对性内容,包括:
- 生成令人不适/冒犯性内容
- 传播歧视性刻板印象
- 非自愿人物模仿
- 非合意成人内容
- 虚假信息
- 极端暴力内容
- 侵犯版权内容
局限性
- 无法实现完美逼真度
- 无法生成可读文本
- 组合性任务表现欠佳(如"蓝色球体上的红色立方体")
- 人脸生成可能失真
- 主要支持英语提示
- 自编码部分存在信息损耗
- 训练数据含成人内容(LAION-5B)需额外安全措施
- 存在训练数据记忆现象(可通过CLIP检索工具检测)
偏见问题
由于主要训练数据为英文描述(LAION-2B),非英语文化内容生成质量较低,默认倾向西方文化输出。
安全模块
建议配合Diffusers的安全检查器使用,该模块通过CLIPTextModel嵌入空间比对硬编码NSFW概念。
训练
详见GLIGEN
引用
@article{li2023gligen,
author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
title = {GLIGEN: Open-Set Grounded Text-to-Image Generation},
publisher = {arXiv:2301.07093},
year = {2023},
}
本模型卡由Nikhil Gajendrakumar编写,基于DALL-E Mini模型卡模板。