controlnet-depth-sdxl-1.0开源图像生成模型 - 凭深度图条件精准控制出图

首页

Controlnet Depth Sdxl 1.0

由 diffusers 开发

基于Stable Diffusion XL的ControlNet模型，支持通过深度图条件控制图像生成

图像生成 #深度条件控制 #照片级图像生成 #SDXL基础模型

下载量 16.66k

发布时间 : 8/12/2023

模型简介

该模型是在stabilityai/stable-diffusion-xl-base-1.0基础上训练的ControlNet权重，专门用于深度条件控制下的图像生成，可实现照片级真实感的图像合成。

模型特点

深度条件控制

通过深度图精确控制生成图像的几何结构和空间关系

高分辨率生成

支持1024x1024高分辨率图像生成

照片级真实感

能够生成具有高度真实感的图像

与SDXL兼容

基于Stable Diffusion XL 1.0构建，保持原模型强大的生成能力

模型能力

深度条件图像生成

高分辨率图像合成

照片级真实感渲染

文本到图像转换

使用案例

创意设计

概念艺术创作

艺术家可以通过深度图控制生成特定构图的概念艺术

精确控制场景空间关系的艺术图像

影视制作

场景预可视化

制作团队可以使用深度图快速生成场景预览

符合预期空间布局的预览图像

产品设计

产品原型可视化

设计师可以通过深度控制生成产品在不同角度的展示图

保持几何一致性的多角度产品图像

🚀 SDXL-controlnet: Depth

SDXL-controlnet: Depth 是基于 stabilityai/stable-diffusion-xl-base-1.0 训练的 ControlNet 权重，支持深度条件控制。以下为你展示一些示例图片。

提示词：蜘蛛侠演讲，逼真写实风格图片示例

🚀 快速开始

📦 安装指南

首先，你需要安装必要的库：

pip install accelerate transformers safetensors diffusers

💻 使用示例

基础用法

安装完成后，即可运行以下代码：

import torch
import numpy as np
from PIL import Image

from transformers import DPTFeatureExtractor, DPTForDepthEstimation
from diffusers import ControlNetModel, StableDiffusionXLControlNetPipeline, AutoencoderKL
from diffusers.utils import load_image


depth_estimator = DPTForDepthEstimation.from_pretrained("Intel/dpt-hybrid-midas").to("cuda")
feature_extractor = DPTFeatureExtractor.from_pretrained("Intel/dpt-hybrid-midas")
controlnet = ControlNetModel.from_pretrained(
    "diffusers/controlnet-depth-sdxl-1.0",
    variant="fp16",
    use_safetensors=True,
    torch_dtype=torch.float16,
)
vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    controlnet=controlnet,
    vae=vae,
    variant="fp16",
    use_safetensors=True,
    torch_dtype=torch.float16,
)
pipe.enable_model_cpu_offload()

def get_depth_map(image):
    image = feature_extractor(images=image, return_tensors="pt").pixel_values.to("cuda")
    with torch.no_grad(), torch.autocast("cuda"):
        depth_map = depth_estimator(image).predicted_depth

    depth_map = torch.nn.functional.interpolate(
        depth_map.unsqueeze(1),
        size=(1024, 1024),
        mode="bicubic",
        align_corners=False,
    )
    depth_min = torch.amin(depth_map, dim=[1, 2, 3], keepdim=True)
    depth_max = torch.amax(depth_map, dim=[1, 2, 3], keepdim=True)
    depth_map = (depth_map - depth_min) / (depth_max - depth_min)
    image = torch.cat([depth_map] * 3, dim=1)

    image = image.permute(0, 2, 3, 1).cpu().numpy()[0]
    image = Image.fromarray((image * 255.0).clip(0, 255).astype(np.uint8))
    return image


prompt = "stormtrooper lecture, photorealistic"
image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-depth/resolve/main/images/stormtrooper.png")
controlnet_conditioning_scale = 0.5  # recommended for good generalization

depth_image = get_depth_map(image)

images = pipe(
    prompt, image=depth_image, num_inference_steps=30, controlnet_conditioning_scale=controlnet_conditioning_scale,
).images
images[0]

images[0].save(f"stormtrooper.png")

更多详细信息，请查阅 StableDiffusionXLControlNetPipeline 的官方文档。

🔧 技术细节

训练

我们的训练脚本基于官方提供的训练脚本构建，详情请见此处。

训练数据和计算资源

训练数据：模型在 LAION-Aesthetics V2 数据集的 300 万图像 - 文本对上进行训练。
计算资源：模型在 80GB A100 GPU 上进行了 700 小时的训练。

批量大小

采用数据并行方式，单 GPU 批量大小为 8，总批量大小为 256。

超参数

学习率固定为 1e-5。

混合精度

使用 fp16 混合精度训练。

📄 许可证

本项目采用 OpenRAIL++ 许可证。

属性	详情
模型类型	SDXL-controlnet: Depth
训练数据	LAION-Aesthetics V2 数据集的 300 万图像 - 文本对
计算资源	80GB A100 GPU，700 小时
批量大小	单 GPU 批量大小 8，总批量大小 256
学习率	1e-5
混合精度	fp16
许可证	OpenRAIL++