controlnet-openpose-sdxl-1.0开源模型 - 利用姿态条件控制Stable Diffusion图像生成

首页

Controlnet Openpose Sdxl 1.0

由 thibaud 开发

基于Stable Diffusion XL的ControlNet模型，使用OpenPose v2姿态条件控制图像生成

图像生成开源协议:其他 #姿态控制图像生成 #高精度人体姿态 #SDXL适配ControlNet

下载量 40.82k

发布时间 : 8/13/2023

模型简介

该模型通过OpenPose姿态检测技术控制图像生成过程，特别适用于需要精确姿态控制的场景，如舞蹈、动作捕捉等。

模型特点

OpenPose v2支持

使用最新版OpenPose姿态检测技术，提供更精确的人体姿态控制

Stable Diffusion XL基础

基于强大的Stable Diffusion XL模型，生成高质量图像

精确姿态控制

通过姿态条件精确控制生成图像中人物的动作和姿势

模型能力

姿态控制图像生成

高质量图像合成

人物动作精确控制

使用案例

艺术创作

舞蹈动作生成

根据特定舞蹈姿势生成艺术图像

示例展示了芭蕾舞者在日落下的优美姿态

角色动作设计

为虚构角色设计特定动作姿势

示例展示了达斯·维达在沙漠中跳舞的效果

内容创作

广告图像生成

根据特定产品展示需求生成人物姿势

🚀 SDXL-controlnet: OpenPose (v2)

SDXL-controlnet: OpenPose (v2) 是基于 stabilityai/stable-diffusion-xl-base-1.0 训练得到的 ControlNet 权重，使用 OpenPose (v2) 进行条件控制。它可以实现文本到图像的转换，通过输入特定的文本描述，生成相应的图像。

✨ 主要特性

基于 Stable Diffusion XL 基础模型，结合 OpenPose (v2) 条件控制，能够生成具有特定姿态的图像。
支持在 🧨 diffusers 库中使用，方便开发者进行集成和调用。

📦 安装指南

首先，安装所有必要的库：

pip install -q controlnet_aux transformers accelerate
pip install -q git+https://github.com/huggingface/diffusers

💻 使用示例

基础用法

以下是一个使用该模型生成图像的示例代码，让 Darth Vader 在沙漠中跳舞：

from diffusers import AutoencoderKL, StableDiffusionXLControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import OpenposeDetector
from diffusers.utils import load_image

# Compute openpose conditioning image.
openpose = OpenposeDetector.from_pretrained("lllyasviel/ControlNet")

image = load_image(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/person.png"
)
openpose_image = openpose(image)

# Initialize ControlNet pipeline.
controlnet = ControlNetModel.from_pretrained("thibaud/controlnet-openpose-sdxl-1.0", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", controlnet=controlnet, torch_dtype=torch.float16
)
pipe.enable_model_cpu_offload()

# Infer.
prompt = "Darth vader dancing in a desert, high quality"
negative_prompt = "low quality, bad quality"
images = pipe(
    prompt, 
    negative_prompt=negative_prompt,
    num_inference_steps=25,
    num_images_per_prompt=4,
    image=openpose_image.resize((1024, 1024)),
    generator=torch.manual_seed(97),
).images
images[0]