controlnet-openpose-sdxl-1.0-safetensors开源模型 - 凭借姿态控制高效生成图像

首页

Controlnet Openpose Sdxl 1.0 Safetensors

由 dimitribarbot 开发

基于Stable Diffusion XL的ControlNet模型，支持通过OpenPose v2姿态控制生成图像

图像生成开源协议:其他 #姿态控制图像生成 #SDXL-ControlNet集成 #舞蹈动作渲染

下载量 168

发布时间 : 11/23/2024

模型简介

该模型是Stable Diffusion XL与OpenPose v2结合的ControlNet实现，能够根据人体姿态条件生成高质量图像。

模型特点

姿态控制生成

通过OpenPose v2检测的人体姿态作为控制条件，精确控制生成图像中人物的姿势

高质量输出

基于Stable Diffusion XL基础模型，可生成高分辨率、细节丰富的图像

兼容主流框架

支持通过diffusers库直接调用，同时提供ComfyUI工作流

模型能力

姿态控制图像生成

高质量图像合成

人体姿态条件生成

使用案例

创意艺术

舞蹈动作生成

根据特定舞蹈姿态生成艺术图像

示例中展示了芭蕾舞者在日落场景中的生成效果

角色姿势设计

为虚构角色设计特定姿势的艺术形象

示例中展示了达斯·维达跳舞的生成效果

🚀 SDXL-controlnet: OpenPose (v2)

这是一个基于StableDiffusionXL的ControlNet模型，使用OpenPose (v2)条件进行训练，可用于文本到图像的生成。

🚀 快速开始

此项目是 thibaud/controlnet-openpose-sdxl-1.0 的副本，允许通过 diffusers 库直接使用其 safetensors 版本。

✨ 主要特性

基于 stabilityai/stable-diffusion-xl-base-1.0 训练，使用OpenPose (v2) 条件。
可通过 diffusers 库方便地集成和使用。
提供了训练脚本和相关参数说明。

📦 安装指南

首先，安装所有必要的库：

pip install -q controlnet_aux transformers accelerate
pip install -q git+https://github.com/huggingface/diffusers

💻 使用示例

基础用法

现在，我们可以让达斯·维达跳舞啦：

from diffusers import AutoencoderKL, StableDiffusionXLControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import OpenposeDetector
from diffusers.utils import load_image

# 计算openpose条件图像。
openpose = OpenposeDetector.from_pretrained("lllyasviel/ControlNet")

image = load_image(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/person.png"
)
openpose_image = openpose(image)

# 初始化ControlNet管道。
controlnet = ControlNetModel.from_pretrained("dimitribarbot/controlnet-openpose-sdxl-1.0-safetensors", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", controlnet=controlnet, torch_dtype=torch.float16
)
pipe.enable_model_cpu_offload()

# 推理。
prompt = "Darth vader dancing in a desert, high quality"
negative_prompt = "low quality, bad quality"
images = pipe(
    prompt, 
    negative_prompt=negative_prompt,
    num_inference_steps=25,
    num_images_per_prompt=4,
    image=openpose_image.resize((1024, 1024)),
    generator=torch.manual_seed(97),
).images
images[0]