stable-diffusion-v1-5-inpainting开源模型 - 文本生成图像，还能遮罩修复图像

首页

Stable Diffusion V1 5 Inpainting

由 botp 开发

基于潜在扩散架构的文本生成图像模型，具备通过遮罩修复图像的增强功能

图像生成开源协议:Openrail #图像修复 #文本引导生成 #遮罩编辑

下载量 6,191

发布时间 : 5/5/2023

模型简介

该模型不仅能根据文本输入生成逼真图像，还能通过遮罩对图像进行智能修复。基于Stable-Diffusion-v-1-2权重初始化，新增5个输入通道用于处理遮罩信息。

模型特点

双重功能

同时支持文本生成图像和基于遮罩的图像修复

增强训练

在LAION数据集上追加44万步修复专项训练，采用10%文本条件丢弃优化

遮罩处理优化

UNet新增5个专用输入通道，25%训练样本使用全遮罩增强鲁棒性

模型能力

文本引导图像生成

图像修复与编辑

高分辨率图像合成

艺术创作辅助

使用案例

创意设计

概念艺术生成

根据文字描述快速生成设计概念图

512x512分辨率图像，支持多次迭代优化

图像编辑

智能修图

通过遮罩自动修复照片缺陷或移除不需要的元素

FID 1.00，LPIPS 0.141（优于LaMa等专业修复模型）

🚀 Stable Diffusion Inpainting

Stable Diffusion Inpainting是一种潜在的文本到图像扩散模型，能够根据任何文本输入生成逼真的图像，还具备使用掩码对图片进行修复的额外能力。

🚀 快速开始

Stable Diffusion Inpainting可根据文本输入生成逼真图像，还能利用掩码进行图像修复。你可以通过以下两种方式使用该模型：

使用🧨Diffusers库

from diffusers import StableDiffusionInpaintPipeline

pipe = StableDiffusionInpaintPipeline.from_pretrained(
    "runwayml/stable-diffusion-inpainting",
    revision="fp16",
    torch_dtype=torch.float16,
)
prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
#image and mask_image should be PIL images.
#The mask structure is white for inpainting and black for keeping as is
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")

使用RunwayML GitHub仓库

下载权重文件 sd-v1-5-inpainting.ckpt
遵循此处的说明。

✨ 主要特性

能够根据文本输入生成逼真的图像。
具备图像修复能力，可使用掩码对图片进行修复。

📚 详细文档

模型详情

属性	详情
开发者	Robin Rombach, Patrick Esser
模型类型	基于扩散的文本到图像生成模型
语言	英语
许可证	CreativeML OpenRAIL M许可证，这是一种 Open RAIL M许可证，改编自 BigScience 和 RAIL Initiative 在负责任的AI许可领域的共同工作。另见关于BLOOM Open RAIL许可证的文章，本许可证基于此。
模型描述	这是一个可用于根据文本提示生成和修改图像的模型。它是一个潜在扩散模型，使用固定的预训练文本编码器 (CLIP ViT-L/14)，如 Imagen论文中所建议。
更多信息资源	GitHub仓库，论文
引用格式

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

使用方式

直接使用

该模型仅用于研究目的。可能的研究领域和任务包括：

安全部署有可能生成有害内容的模型。
探究和理解生成模型的局限性和偏差。
生成艺术作品并用于设计和其他艺术过程。
在教育或创意工具中的应用。
对生成模型的研究。

排除的使用方式如下所述。

滥用、恶意使用和超出范围的使用

⚠️ 重要提示

本部分内容取自 DALLE-MINI模型卡片，但同样适用于Stable Diffusion v1。

该模型不应被用于故意创建或传播会给人们造成敌对或疏离环境的图像。这包括生成人们可预见会感到不安、痛苦或冒犯的图像；或传播历史或当前刻板印象的内容。

超出范围的使用：该模型并非用于生成真实或准确反映人物或事件的内容，因此使用该模型生成此类内容超出了该模型的能力范围。
滥用和恶意使用：使用该模型生成对个人残忍的内容是对该模型的滥用。这包括但不限于：
- 生成贬低、非人化或以其他方式伤害人们或其环境、文化、宗教等的表现形式。
- 故意推广或传播歧视性内容或有害刻板印象。
- 在未经个人同意的情况下冒充他们。
- 未经可能看到的人的同意生成色情内容。
- 虚假和误导性信息。
- 严重暴力和血腥的表现形式。
- 违反版权或许可材料使用条款分享此类材料。
- 违反版权或许可材料使用条款分享对其进行修改的内容。

局限性和偏差

局限性

模型无法实现完美的照片级逼真度。
模型无法渲染清晰可读的文本。
模型在涉及组合性的更困难任务上表现不佳，例如渲染与 “红色立方体放在蓝色球体上” 对应的图像。
面部和人物一般可能无法正确生成。
模型主要使用英语字幕进行训练，在其他语言中的效果不佳。
模型的自动编码部分存在信息损失。
模型在大规模数据集 LAION-5B 上进行训练，该数据集包含成人内容，在没有额外安全机制和考虑的情况下不适合产品使用。
未采取额外措施对数据集进行去重。因此，我们观察到对训练数据中重复的图像存在一定程度的记忆。可以在 https://rom1504.github.io/clip-retrieval/ 上搜索训练数据，以可能协助检测记忆的图像。

偏差

虽然图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏差。Stable Diffusion v1在 LAION-2B(en) 的子集上进行训练，该子集主要由英语描述的图像组成。使用其他语言的社区和文化的文本和图像可能没有得到充分考虑。这影响了模型的整体输出，因为白人和西方文化通常被设定为默认值。此外，模型使用非英语提示生成内容的能力明显比使用英语提示时差。

训练

训练数据

模型开发者使用以下数据集进行模型训练：

LAION-2B (en) 及其子集（见下一节）

训练过程

Stable Diffusion v1是一个潜在扩散模型，它将自动编码器与在自动编码器的潜在空间中训练的扩散模型相结合。在训练过程中：

图像通过编码器进行编码，将图像转换为潜在表示。自动编码器使用相对下采样因子8，将形状为H x W x 3的图像映射到形状为H/f x W/f x 4的潜在表示。
文本提示通过ViT-L/14文本编码器进行编码。
文本编码器的非池化输出通过交叉注意力输入到潜在扩散模型的UNet主干中。
损失是添加到潜在表示中的噪声与UNet的预测之间的重建目标。

目前提供六个检查点，sd-v1-1.ckpt、sd-v1-2.ckpt、sd-v1-3.ckpt、sd-v1-4.ckpt、sd-v1-5.ckpt 和 sd-v1-5-inpainting.ckpt，它们的训练方式如下：

sd-v1-1.ckpt：在 laion2B-en 上以分辨率 256x256 进行237k步常规训练，然后在 laion-high-resolution（来自LAION-5B的170M个分辨率 >= 1024x1024 的示例）上以分辨率 512x512 进行194k步训练。
sd-v1-2.ckpt：从 sd-v1-1.ckpt 恢复训练。在 “laion-improved-aesthetics”（laion2B-en的一个子集，过滤为原始大小 >= 512x512、估计美学分数 > 5.0 且估计水印概率 < 0.5 的图像。水印估计来自LAION-5B元数据，美学分数使用改进的美学估计器进行估计）上以分辨率 512x512 进行515k步训练。
sd-v1-3.ckpt：从 sd-v1-2.ckpt 恢复训练。在 “laion-improved-aesthetics” 上以分辨率 512x512 进行195k步训练，并在10%的步骤中丢弃文本条件以改进无分类器引导采样。
sd-v1-4.ckpt：从stable-diffusion-v1-2恢复训练。在 “laion-aesthetics v2 5+” 上以分辨率512x512进行225,000步训练，并在10%的步骤中丢弃文本条件以进行无分类器引导采样。
sd-v1-5.ckpt：从sd-v1-2.ckpt恢复训练。在 “laion-aesthetics v2 5+” 上以分辨率512x512进行595k步训练，并在10%的步骤中丢弃文本条件以改进无分类器引导采样。
sd-v1-5-inpaint.ckpt：从sd-v1-2.ckpt恢复训练。在 “laion-aesthetics v2 5+” 上以分辨率512x512进行595k步训练，并在10%的步骤中丢弃文本条件以改进无分类器引导采样。然后在 “laion-aesthetics v2 5+” 上以分辨率512x512进行440k步的图像修复训练，并在10%的步骤中丢弃文本条件。对于图像修复，UNet有5个额外的输入通道（4个用于编码的掩码图像，1个用于掩码本身），其权重在恢复非图像修复检查点后初始化为零。在训练过程中，我们生成合成掩码，并在25%的情况下对所有内容进行掩码。