Stable Diffusion XL Refiner 1.0开源图像精炼模型 - 配合基础模型生成高质量图像

首页

Stable Diffusion Xl Refiner 1.0 GGUF

由 gpustack 开发

SDXL 1.0-refiner是Stability AI开发的潜在扩散模型，专注于图像精炼阶段，可与基础模型配合生成高质量图像。

图像生成 #图像精修增强 #两阶段生成流程 #专家集合扩散

下载量 44.91k

发布时间 : 11/8/2024

模型简介

该模型是SDXL流程中的精炼阶段模型，用于对基础模型生成的潜在表示进行最终去噪处理，提升图像质量。支持文本到图像和图像到图像转换。

模型特点

专家集合流程

与基础模型配合使用，通过两阶段流程生成更高质量的图像

高分辨率优化

专注于最终去噪步骤，特别适合高分辨率图像生成

SDEdit技术支持

支持使用相同提示对现有图像进行优化改进

多文本编码器

整合OpenCLIP-ViT/G和CLIP-ViT/L两个预训练文本编码器

模型能力

文本到图像生成

图像到图像转换

图像精炼优化

高分辨率图像生成

使用案例

创意艺术

数字艺术创作

艺术家和设计师用于快速生成创意概念和艺术作品

可生成风格多样的数字艺术作品

概念设计

用于产品、游戏或影视的概念设计阶段

快速可视化设计概念

教育工具

教学辅助

为教育内容生成视觉辅助材料

增强教学内容的视觉表现力

🚀 stable-diffusion-xl-refiner-1.0-GGUF

本项目基于Stable Diffusion技术，提供了图像生成和修改的能力。通过特定的量化配置和模型架构，可根据文本提示生成高质量图像，适用于艺术创作、教育工具等研究领域。

📄 许可证

本项目采用 CreativeML Open RAIL++-M License 许可协议。

📦 安装指南

升级 `diffusers` 库

pip install diffusers --upgrade

安装其他依赖库

pip install invisible_watermark transformers accelerate safetensors

💻 使用示例

基础用法

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

高级用法

使用 `torch.compile` 提升推理速度

当使用 torch >= 2.0 时，可通过 torch.compile 提升 20 - 30% 的推理速度。在运行管道前，用 torch.compile 包装 unet：

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

启用 CPU 卸载

如果受限于 GPU 显存，可调用 pipe.enable_model_cpu_offload 启用 CPU 卸载，而不是使用 .to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

📚 详细文档

模型信息

属性	详情
模型类型	基于扩散的文本到图像生成模型
开发团队	Stability AI
许可证	CreativeML Open RAIL++-M License
模型描述	这是一个可以根据文本提示生成和修改图像的模型。它是一个潜在扩散模型，使用两个固定的预训练文本编码器 (OpenCLIP-ViT/G 和 CLIP-ViT/L)。
更多信息资源	请查看 GitHub 仓库和 SDXL 报告。

量化信息

量化方式	OpenCLIP ViT-G/14 量化	VAE 量化
FP16	FP16	FP16
Q8_0	FP16	FP16
Q4_1	FP16	FP16
Q4_0	FP16	FP16

模型架构

pipeline

SDXL 由一个用于潜在扩散的专家集成管道组成：第一步，使用基础模型（可在 https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 获取）生成（有噪声的）潜在变量，然后使用专门用于最终去噪步骤的细化模型对其进行进一步处理。请注意，基础模型可以作为独立模块使用。

或者，我们可以使用如下的两阶段管道：首先，使用基础模型生成所需输出大小的潜在变量。第二步，使用专门的高分辨率模型，并对第一步生成的潜在变量应用一种称为 SDEdit（https://arxiv.org/abs/2108.01073，也称为 “img2img”）的技术，使用相同的提示。这种技术比第一种方法稍慢，因为它需要更多的函数评估。

源代码可在 https://github.com/Stability-AI/generative-models 获取。

评估结果

comparison

上图评估了用户对 SDXL（有和没有细化）相对于 SDXL 0.9 以及 Stable Diffusion 1.5 和 2.1 的偏好。SDXL 基础模型的表现明显优于之前的版本，而与细化模块结合的模型则实现了最佳的整体性能。

🔧 技术细节

模型来源

为了进行研究，我们推荐使用 generative-models GitHub 仓库（https://github.com/Stability-AI/generative-models），该仓库实现了最流行的扩散框架（包括训练和推理），并且会随着时间的推移添加新的功能，如蒸馏。 Clipdrop 提供免费的 SDXL 推理服务。