flash-sd3开源图像生成模型 - 闪电扩散，4步生成1024x1024高清图像

首页

Flash Sd3

由 jasperai 开发

闪电扩散（Flash Diffusion）是Jasper Research团队提出的一种扩散蒸馏方法，能够在4步内生成1024x1024分辨率的图像。

图像生成 #4步快速生成 #LoRA蒸馏 #高分辨率图像

下载量 126

发布时间 : 6/17/2024

模型简介

该模型是SD3模型的LoRA蒸馏版本，专注于快速生成高质量图像，适用于需要高效图像生成的场景。

模型特点

高效图像生成

能够在4步内生成1024x1024分辨率的图像，大幅提升生成速度。

LoRA蒸馏

通过LoRA技术对SD3模型进行蒸馏，保留高质量生成能力的同时减少计算需求。

高质量输出

即使在极少的推理步骤下，仍能生成高质量的图像。

模型能力

文本生成图像

快速图像生成

高分辨率图像生成

使用案例

创意设计

快速概念设计

设计师可以快速生成多种设计概念，提高工作效率。

在4步内生成高质量的设计草图。

内容创作

社交媒体内容生成

快速生成吸引人的社交媒体图像内容。

高效生成高质量的图像，适合频繁的内容更新需求。

🚀 ⚡ 闪电扩散：FlashSD3 ⚡

闪电扩散（Flash Diffusion）是一种扩散蒸馏方法，由Jasper Research的Clément Chadebec、Onur Tasar、Eyal Benaroche和Benjamin Aubin在论文Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation中提出。此模型是SD3模型的一个9040万参数的LoRA蒸馏版本，能够在4步内生成1024x1024的图像。查看我们的实时演示和官方Github仓库。

🚀 快速开始

该模型可以直接使用diffusers库中的StableDiffusion3Pipeline。它可以将所需的采样步骤减少到4步。

📦 安装指南

⚠️ 重要提示

首先，你需要通过运行以下命令安装特定版本的diffusers。

pip install git+https://github.com/initml/diffusers.git@clement/feature/flash_sd3

💻 使用示例

基础用法

import torch
from diffusers import StableDiffusion3Pipeline, SD3Transformer2DModel, FlashFlowMatchEulerDiscreteScheduler
from peft import PeftModel

# Load LoRA
transformer = SD3Transformer2DModel.from_pretrained(
    "stabilityai/stable-diffusion-3-medium-diffusers",
    subfolder="transformer",
    torch_dtype=torch.float16,
)
transformer = PeftModel.from_pretrained(transformer, "jasperai/flash-sd3")


# Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3-medium-diffusers",
    transformer=transformer,
    torch_dtype=torch.float16,
    text_encoder_3=None,
    tokenizer_3=None
)

# Scheduler
pipe.scheduler = FlashFlowMatchEulerDiscreteScheduler.from_pretrained(
  "stabilityai/stable-diffusion-3-medium-diffusers",
  subfolder="scheduler",
)

pipe.to("cuda")

prompt = "A raccoon trapped inside a glass jar full of colorful candies, the background is steamy with vivid colors."

image = pipe(prompt, num_inference_steps=4, guidance_scale=0).images[0]

🔧 技术细节

该模型在2个H100 GPU上训练了约50小时。

💡 使用建议

如果在包含文本的图像数据集上进行蒸馏，模型在处理文本方面的表现会更好，你可以自行尝试。

📄 引用

如果您发现这项工作有用或在您的研究中使用了它，请考虑引用我们：

@misc{chadebec2024flash,
      title={Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation}, 
      author={Clement Chadebec and Onur Tasar and Eyal Benaroche and Benjamin Aubin},
      year={2024},
      eprint={2406.02347},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}