Stable Diffusion XL Inpainting 1.0-GGUF开源模型 - 免费实现文本生图与图像修复

首页

Stable Diffusion Xl Inpainting 1.0 GGUF

由 gpustack 开发

基于Stable Diffusion XL的文本生成图像模型，具备图像修复功能，能够根据文本输入和掩码修改图像内容。

图像生成 #高分辨率图像修复 #文本引导编辑 #1024x1024生成

下载量 387

发布时间 : 12/24/2024

模型简介

这是一个潜在的文本到图像扩散模型，能够根据任何文本输入生成逼真的图像，并具备通过使用掩码修复图片的额外功能。

模型特点

高分辨率图像生成

支持1024x1024高分辨率图像生成

图像修复功能

可通过掩码对图像特定区域进行内容修复

双文本编码器

使用OpenCLIP-ViT/G和CLIP-ViT/L双文本编码器提升文本理解能力

量化支持

提供多种量化版本（FP16、Q8_0、Q4_1、Q4_0）以适应不同硬件需求

模型能力

文本生成图像

图像修复

高分辨率图像生成

基于掩码的内容编辑

使用案例

创意设计

艺术创作

根据文本描述生成艺术作品

生成符合描述的高质量图像

图像修复

修复图像中的损坏或不需要的部分

无缝修复图像指定区域

教育工具

视觉教学辅助

快速生成教学用视觉材料

根据教学内容生成相关图像

🚀 stable-diffusion-xl-inpainting-1.0-GGUF

stable-diffusion-xl-inpainting-1.0-GGUF 是一个文本到图像的扩散模型，能够根据文本输入生成逼真图像，还具备通过掩码进行图像修复的额外能力。该模型由 Diffusers 团队开发，基于 stable-diffusion-xl-base-1.0 权重初始化。

🚀 快速开始

!!! 仅由 gpustack/llama-box v0.0.98+ 提供实验性支持 !!!

模型创建者：Diffusers
原始模型：stable-diffusion-xl-1.0-inpainting-0.1
GGUF 量化：基于由 llama-box 打补丁的 stable-diffusion.cpp ac54e。

量化方式	OpenAI CLIP ViT-L/14 量化	OpenCLIP ViT-G/14 量化	VAE 量化
FP16	FP16	FP16	FP16
Q8_0	FP16	FP16	FP16
Q4_1	FP16	FP16	FP16
Q4_0	FP16	FP16	FP16

✨ 主要特性

SD-XL Inpainting 0.1 是一个潜在的文本到图像扩散模型，能够根据任何文本输入生成逼真的图像，并具有使用掩码修复图片的额外能力。该模型使用 stable-diffusion-xl-base-1.0 权重进行初始化，在 1024x1024 分辨率下训练了 40k 步，并以 5% 的概率丢弃文本条件以改善无分类器引导采样。对于图像修复，UNet 有 5 个额外的输入通道（4 个用于编码掩码图像，1 个用于掩码本身），其权重在恢复非修复检查点后初始化为零。在训练过程中，会生成合成掩码，并以 25% 的概率对整个图像进行掩码处理。

💻 使用示例

基础用法

from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch

pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")

img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"

image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))

prompt = "a tiger sitting on a park bench"
generator = torch.Generator(device="cuda").manual_seed(0)

image = pipe(
  prompt=prompt,
  image=image,
  mask_image=mask_image,
  guidance_scale=8.0,
  num_inference_steps=20,  # steps between 15 and 30 work well for us
  strength=0.99,  # make sure to use `strength` below 1.0
  generator=generator,
).images[0]

效果展示

输入图像	掩码图像

提示词	输出图像
a tiger sitting on a park bench

📚 详细文档

模型描述

开发者：The Diffusers 团队
模型类型：基于扩散的文本到图像生成模型
许可证：CreativeML Open RAIL++-M License
模型说明：这是一个可用于根据文本提示生成和修改图像的模型。它是一个潜在扩散模型，使用两个固定的预训练文本编码器（OpenCLIP-ViT/G 和 CLIP-ViT/L）。

用途

直接使用

该模型仅用于研究目的。可能的研究领域和任务包括：

艺术品生成，以及在设计和其他艺术过程中的应用。
在教育或创意工具中的应用。
生成模型的研究。
对有可能生成有害内容的模型进行安全部署。
探索和理解生成模型的局限性和偏差。

超出范围的使用

该模型并非用于真实或准确地表示人物或事件，因此使用该模型生成此类内容超出了该模型的能力范围。

局限性和偏差

局限性

模型无法实现完美的照片级真实感。
模型无法渲染清晰可读的文本。
模型在处理更复杂的组合性任务时存在困难，例如渲染与 “一个红色立方体放在蓝色球体上” 对应的图像。
面部和人物通常可能无法正确生成。
模型的自动编码部分存在信息损失。
当强度参数设置为 1（即从完全掩码的图像开始进行图像修复）时，图像质量会下降。模型会保留图像的非掩码内容，但图像看起来不够清晰。目前正在对此进行研究并开发下一版本。