TDD开源图像生成模型 - 显著减少推理步数，4

首页

TDD

由 RED-AIGC 开发

TDD是一种通过目标时间步选择与解耦引导的一致性蒸馏方法，能够显著减少生成高质量图像所需的推理步数（仅需4-8步）。

文本生成图像英语开源协议:Apache-2.0 #快速文生图 #低步数推理 #解耦引导

下载量 236

发布时间 : 8/28/2024

模型简介

TDD是一种先进的蒸馏技术，用于加速文本到图像的生成过程。它通过创新的目标时间步选择策略和解耦引导方法，在保持图像质量的同时大幅减少推理步骤。

模型特点

目标时间步选择策略

采用精细的目标时间步选择策略提升训练效率，从预定义的等间隔去噪计划中选择并添加随机偏移以适应非确定性采样。

解耦引导训练

训练中使用解耦引导，支持推理阶段对引导尺度进行后调，通过替换部分文本条件为空提示与CFG的标准训练流程对齐。

灵活采样选项

可选配非等间隔采样和x0裁剪，实现更灵活精准的图像采样。

快速推理

仅需4-8步即可生成高质量图像，显著提升生成速度。

模型能力

文本生成图像

快速图像生成

高质量图像生成

支持多种基础模型

使用案例

创意设计

艺术创作

快速生成艺术风格的图像

仅需4-8步即可生成高质量艺术作品

概念设计

快速生成产品概念图

高效生成多样化的设计概念

内容生成

社交媒体内容

快速生成社交媒体图片

高效生成吸引人的视觉内容

广告素材

快速生成广告创意图像

快速迭代多种广告设计方案

🚀 目标驱动蒸馏（Target-Driven Distillation）

目标驱动蒸馏（TDD）是一种一致性蒸馏方法，它采用了目标时间步选择和去耦引导等关键设计，能有效提升训练效率，在图像生成的复杂度和清晰度上表现出色，可应用于多种模型实现快速文本到图像的生成。

🚀 快速开始

项目相关链接

项目效果展示

teaser

TDD 蒸馏的 SDXL 仅用 4 - 8 步生成的样本。

✨ 主要特性

目标驱动蒸馏（TDD）有三个关键设计，与以往的一致性蒸馏方法不同：

TDD 采用精细的目标时间步选择策略，提高训练效率：具体来说，它首先从预定义的等距去噪时间表（例如 4 - 8 步）中选择，然后添加随机偏移以适应非确定性采样（例如 $\gamma$-采样）。
TDD 在训练期间利用去耦引导，使其在推理期间可以对引导比例进行后期调整：具体而言，它用无条件（即空）提示替换部分文本条件，以符合使用 CFG 的标准训练过程。
TDD 可以选择配备非等距采样和 x0 裁剪，为图像采样提供更灵活、准确的方式。

overview

TDD 概述。(a) 训练过程具有目标时间步选择和去耦引导。(b) 推理过程可以选择采用非等距去噪时间表。

comparison

由主流一致性蒸馏方法 LCM、PCM、TCD 和我们的 TDD 蒸馏的 SDXL 模型从相同种子生成的样本。我们的方法在图像复杂度和清晰度方面均显示出优势。

other

TDD 蒸馏的不同基础模型以及使用不同 LoRA 适配器或 ControlNets 的 SDXL 生成的样本。

AnimateLCM 蒸馏（上）和 TDD 蒸馏（下）的 SVD - xt 1.1 生成的视频样本，同样只需 4 - 8 步。

💻 使用示例

FLUX 模型使用示例

from huggingface_hub import hf_hub_download
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
pipe.load_lora_weights(hf_hub_download("RED-AIGC/TDD", "FLUX.1-dev_tdd_adv_lora_weights.safetensors"))
pipe.fuse_lora(lora_scale=0.125)
pipe.to("cuda")

image_flux = pipe(
    prompt=[prompt],
    generator=torch.Generator().manual_seed(int(3413)),
    num_inference_steps=8,
    guidance_scale=2.0,
    height=1024,
    width=1024,
    max_sequence_length=256
).images[0]

SDXL 模型使用示例

你可以直接从本仓库下载模型，也可以在 Python 脚本中下载：

from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="RedAIGC/TDD", filename="sdxl_tdd_lora_weights.safetensors", local_dir="./tdd_lora")

# !pip install opencv-python transformers accelerate 
import torch
import diffusers
from diffusers import StableDiffusionXLPipeline
from tdd_scheduler import TDDScheduler

device = "cuda"
tdd_lora_path = "tdd_lora/sdxl_tdd_lora_weights.safetensors"

pipe = StableDiffusionXLPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16").to(device)

pipe.scheduler = TDDSchedulerPlus.from_config(pipe.scheduler.config)
pipe.load_lora_weights(tdd_lora_path, adapter_name="accelerate")
pipe.fuse_lora()

prompt = "A photo of a cat made of water."

image = pipe(
    prompt=prompt,
    num_inference_steps=4,
    guidance_scale=1.7,
    eta=0.2, 
    generator=torch.Generator(device=device).manual_seed(546237),
).images[0]

image.save("tdd.png")

📚 详细文档

模型更新记录

[2025.01.01]：上传 FLUX - TDD - ADV 的 TDD LoRA 权重。
[2024.09.20]：上传 FLUX - TDD - BETA（4 - 8 步）的 TDD LoRA 权重。
[2024.08.25]：上传 SVD 的 TDD LoRA 权重。
[2024.08.22]：上传 Stable Diffusion XL、YamerMIX 和 RealVisXL - V4.0 的 TDD LoRA 权重，实现快速文本到图像生成。

感谢 Yamer 和 SG_161222 分别开发了 YamerMIX 和 RealVisXL V4.0。