许可证:其他
许可证名称:stabilityai-ai-community
许可证链接:https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/LICENSE.md
语言:
- 英文
库名称:diffusers
管道标签:文本生成图像
标签:
- 文本生成图像
- IP适配器
- StableDiffusion3Pipeline
- 图像生成
- 稳定扩散
基础模型:
- stabilityai/stable-diffusion-3.5-large
SD3.5-Large-IP-Adapter
本仓库包含由InstantX团队发布的SD3.5-Large模型的IP适配器,其中图像可以像文本一样工作,因此可能不会响应或干扰其他文本,但我们希望您喜欢这个模型,玩得开心,并与我们在Twitter上分享您的创意作品。
模型卡片
这是一个常规的IP适配器,新层被添加到所有38个块中。我们使用google/siglip-so400m-patch14-384来编码图像,因其卓越的性能,并采用TimeResampler进行投影。图像令牌数量设置为64。
展示
推理
代码尚未集成到diffusers中,目前请使用我们的本地文件。
import torch
from PIL import Image
from models.transformer_sd3 import SD3Transformer2DModel
from pipeline_stable_diffusion_3_ipa import StableDiffusion3Pipeline
model_path = 'stabilityai/stable-diffusion-3.5-large'
ip_adapter_path = './ip-adapter.bin'
image_encoder_path = "google/siglip-so400m-patch14-384"
transformer = SD3Transformer2DModel.from_pretrained(
model_path, subfolder="transformer", torch_dtype=torch.bfloat16
)
pipe = StableDiffusion3Pipeline.from_pretrained(
model_path, transformer=transformer, torch_dtype=torch.bfloat16
).to("cuda")
pipe.init_ipadapter(
ip_adapter_path=ip_adapter_path,
image_encoder_path=image_encoder_path,
nb_token=64,
)
ref_img = Image.open('./assets/1.jpg').convert('RGB')
image = pipe(
width=1024,
height=1024,
prompt='一只猫',
negative_prompt="低分辨率, 低质量, 最差质量",
num_inference_steps=24,
guidance_scale=5.0,
generator=torch.Generator("cuda").manual_seed(42),
clip_image=ref_img,
ipadapter_scale=0.5,
).images[0]
image.save('./result.jpg')
社区ComfyUI支持
请参考Slickytail/ComfyUI-InstantX-IPAdapter-SD3。
许可证
该模型根据stabilityai-ai-community发布。保留所有版权。
致谢
本项目由HuggingFace和fal.ai赞助。感谢Slickytail支持ComfyUI节点。
引用
如果您在研究中发现本项目有用,请通过以下方式引用我们:
@misc{sd35-large-ipa,
author = {InstantX Team},
title = {InstantX SD3.5-Large IP-Adapter 页面},
year = {2024},
}