SD3.5-Large-IP-Adapter开源图像生成模型 - 以图结合文本提示创作新图

首页

SD3.5 Large IP Adapter

由 InstantX 开发

这是一个基于SD3.5-Large模型的IP适配器，能够将图像作为输入条件，与文本提示共同生成新图像。

文本生成图像英语开源协议:其他 #图像引导生成 #多模态融合 #高分辨率图像生成

下载量 1,474

发布时间 : 11/7/2024

模型简介

该模型是一个IP适配器，可以将图像像文本一样作为输入条件，用于文本到图像的生成任务。

模型特点

图像条件输入

可以将参考图像作为输入条件，与文本提示共同影响生成结果

多块适配

新层被添加到所有38个块中，增强模型对图像条件的理解能力

高性能图像编码

使用google/siglip-so400m-patch14-384编码图像，配合TimeResampler进行投影

64图像令牌

设置64个图像令牌数量，平衡生成质量和计算效率

模型能力

文本生成图像

图像条件生成

高分辨率图像生成

使用案例

创意设计

风格迁移

基于参考图像的风格生成新图像

生成与参考图像风格一致的新内容

概念设计

结合文本描述和参考图像生成设计概念

融合文本和图像特征的创意设计

内容创作

插画生成

基于草图或参考图像生成完整插画

保持参考图像特征的高质量插画

🚀 SD3.5-Large-IP-Adapter

本仓库包含一个适用于SD3.5-Large模型的IP-Adapter，该模型由InstantX团队的研究人员发布。在这个模型中，图像的作用类似于文本，它可能不会对其他文本做出响应或产生干扰。我们衷心希望您能喜欢这个模型，享受使用它的乐趣，并在Twitter上与我们分享您的创意作品。

✨ 主要特性

这是一个常规的IP-Adapter，在所有38个块中都添加了新的层。我们使用google/siglip-so400m-patch14-384对图像进行编码，因为它具有卓越的性能，并采用了TimeResampler进行投影。图像令牌数量设置为64。

📦 安装指南

代码尚未集成到diffusers库中，目前请使用我们的本地文件。

💻 使用示例

基础用法

import torch
from PIL import Image

from models.transformer_sd3 import SD3Transformer2DModel
from pipeline_stable_diffusion_3_ipa import StableDiffusion3Pipeline

model_path = 'stabilityai/stable-diffusion-3.5-large'
ip_adapter_path = './ip-adapter.bin'
image_encoder_path = "google/siglip-so400m-patch14-384"

transformer = SD3Transformer2DModel.from_pretrained(
    model_path, subfolder="transformer", torch_dtype=torch.bfloat16
)

pipe = StableDiffusion3Pipeline.from_pretrained(
    model_path, transformer=transformer, torch_dtype=torch.bfloat16
).to("cuda")

pipe.init_ipadapter(
    ip_adapter_path=ip_adapter_path, 
    image_encoder_path=image_encoder_path, 
    nb_token=64, 
)

ref_img = Image.open('./assets/1.jpg').convert('RGB')

# please note that SD3.5 Large is sensitive to highres generation like 1536x1536
image = pipe(
    width=1024,
    height=1024,
    prompt='a cat',
    negative_prompt="lowres, low quality, worst quality",
    num_inference_steps=24, 
    guidance_scale=5.0,
    generator=torch.Generator("cuda").manual_seed(42),
    clip_image=ref_img,
    ipadapter_scale=0.5,
).images[0]
image.save('./result.jpg')

📚 详细文档

模型展示

社区ComfyUI支持

请参考 Slickytail/ComfyUI-InstantX-IPAdapter-SD3。

📄 许可证

该模型遵循 stabilityai-ai-community 许可证发布，保留所有版权。

👏 致谢

本项目由 HuggingFace 和 fal.ai 赞助。感谢 Slickytail 对ComfyUI节点的支持。

📖 引用

如果您在研究中发现本项目有用，请通过以下方式引用我们：

@misc{sd35-large-ipa,
    author = {InstantX Team},
    title = {InstantX SD3.5-Large IP-Adapter Page},
    year = {2024},
}

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文