许可协议:creativeml-openrail-m
任务标签:文本生成图像
标签:
- stable diffusion
- diffusers
GLIGEN:开放集接地文本到图像生成
GLIGEN模型由威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员和工程师开发。
[StableDiffusionGLIGENTextImagePipeline
]能够根据接地输入生成逼真的图像。
除了文本和边界框外,如果提供输入图像,该流程可以在边界框定义的区域内插入文本描述的对象。否则,它将生成由标题/提示描述的图像,并在边界框定义的区域内插入文本描述的对象。该模型在COCO2014D和COCO2014CD数据集上训练,并使用固定的CLIP ViT-L/14文本编码器来根据接地输入调节自身。
此处的权重旨在与🧨 Diffusers库一起使用。如果您想为某项任务使用官方检查点之一,请探索gligen Hub组织!
模型详情
-
开发者: 李宇恒、刘昊天、吴庆阳、穆方舟、杨建伟、高剑峰、李春元、李永宰
-
模型类型: 基于扩散的接地文本到图像生成模型
-
语言: 英语
-
许可协议: CreativeML OpenRAIL M许可证是一个Open RAIL M许可证,改编自BigScience和RAIL Initiative在负责任AI许可领域的联合工作。另请参阅关于BLOOM Open RAIL许可证的文章,我们的许可证基于此。
-
模型描述: 这是一个可以根据文本提示、边界框和参考图像生成图像的模型。它可以在不使用文本反转、dreambooth或LoRA微调的情况下,在生成的图像中添加新对象或风格。它是一个潜在扩散模型,使用了固定的预训练文本编码器(CLIP ViT-L/14),如Imagen论文所建议。
-
更多信息: GitHub仓库、论文。
-
引用:
@article{li2023gligen,
author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
title = {GLIGEN: Open-Set Grounded Text-to-Image Generation},
publisher = {arXiv:2301.07093},
year = {2023},
}
示例
我们推荐使用🤗的Diffusers库来运行GLIGEN。
PyTorch
pip install --upgrade diffusers transformers scipy
使用默认调度器运行流程:
import torch
from diffusers import StableDiffusionGLIGENTextImagePipeline
from diffusers.utils import load_image
pipe = StableDiffusionGLIGENTextImagePipeline.from_pretrained("anhnct/Gligen_Inpainting_Text_Image", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
input_image = load_image(
"https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)
prompt = "a backpack"
boxes = [[0.2676, 0.4088, 0.4773, 0.7183]]
phrases = None
gligen_image = load_image(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/backpack.jpeg"
)
images = pipe(
prompt=prompt,
gligen_phrases=phrases,
gligen_inpaint_image=input_image,
gligen_images=[gligen_image],
gligen_boxes=boxes,
gligen_scheduled_sampling_beta=1,
output_type="pil",
num_inference_steps=50,
).images
images[0].save("./gligen-inpainting-text-image-box.jpg")
用途
直接使用
该模型仅用于研究目的。可能的研究领域和任务包括:
- 安全部署可能生成有害内容的模型。
- 探索和理解生成模型的局限性和偏见。
- 生成艺术作品并用于设计和其他艺术过程。
- 在教育或创意工具中的应用。
- 生成模型的研究。
以下用途被排除在外。
滥用、恶意使用和超出范围的用途
_注:本节取自DALLE-MINI模型卡,但同样适用于GLIGEN。
该模型不应被用于故意创建或传播为人们制造敌对或疏远环境的图像。这包括生成人们可预见会感到不安、痛苦或冒犯的图像;或传播历史或当前刻板印象的内容。
超出范围的用途
该模型未经过训练以生成关于人或事件的真实或准确表示,因此使用该模型生成此类内容超出了该模型的能力范围。
滥用和恶意使用
使用该模型生成对个人残忍的内容是对该模型的滥用。这包括但不限于:
- 生成贬低、非人化或以其他方式伤害人们或其环境、文化、宗教等的内容。
- 故意推广或传播歧视性内容或有害刻板印象。
- 未经同意冒充个人。
- 未经可能看到的人的同意生成性内容。
- 错误和虚假信息。
- 极端暴力和血腥的描绘。
- 违反使用条款分享受版权或许可的材料。
- 违反使用条款分享受版权或许可材料的改编内容。
局限性和偏见
局限性
- 该模型无法实现完美的照片级真实感。
- 该模型无法渲染可读的文本。
- 该模型在涉及组合性的更复杂任务上表现不佳,例如渲染“蓝色球体上的红色立方体”对应的图像。
- 面部和人物可能无法正确生成。
- 该模型主要使用英语标题训练,在其他语言中表现不佳。
- 模型的自动编码部分是有损的。
- 该模型在包含成人内容的大规模数据集LAION-5B上训练,不适合产品使用,除非有额外的安全机制和考虑。
- 未使用额外的去重措施。因此,我们观察到训练数据中重复图像的某种程度记忆。可以通过https://rom1504.github.io/clip-retrieval/搜索训练数据,可能有助于检测记忆的图像。
偏见
尽管图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏见。
Stable Diffusion v1在LAION-2B(en)的子集上训练,这些图像主要限于英语描述。
使用其他语言的社区和文化的文本和图像可能未被充分考虑到。
这影响了模型的整体输出,因为白人和西方文化通常被设为默认。此外,模型生成非英语提示内容的能力明显比英语提示差。
安全模块
该模型的预期用途是与Diffusers中的安全检查器一起使用。
该检查器通过将模型输出与已知的硬编码NSFW概念进行比较来工作。
这些概念被故意隐藏以减少逆向工程此过滤器的可能性。
具体来说,检查器在生成图像后比较CLIPTextModel
嵌入空间中有害概念的类别概率。
这些概念与生成的图像一起传入模型,并与每个NSFW概念的手工权重进行比较。
训练
更多详情请参考GLIGEN
。
引用
@article{li2023gligen,
author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
title = {GLIGEN: Open-Set Grounded Text-to-Image Generation},
publisher = {arXiv:2301.07093},
year = {2023},
}
此模型卡由Nguyễn Công Tú Anh编写,基于DALL-E Mini模型卡。