ldm-text2im-large-256开源图像生成模型 - 按文本高效合成高分辨率图像

首页

Ldm Text2im Large 256

由 CompVis 开发

基于潜在扩散模型的高分辨率文本到图像生成模型，通过潜在空间操作实现高效图像合成

图像生成开源协议:Apache-2.0 #文本生成图像 #潜在空间扩散 #高分辨率合成

下载量 1,932

发布时间 : 7/18/2022

模型简介

该模型采用潜在扩散技术，在预训练自编码器的潜在空间中运行扩散过程，实现高质量图像生成。支持通过文本提示控制生成内容，相比像素空间扩散模型显著降低计算需求。

模型特点

潜在空间高效生成

在预训练自编码器的潜在空间中运行扩散过程，相比像素级操作显著降低计算成本

高分辨率合成

通过卷积方式实现高分辨率图像生成，保持视觉保真度

灵活条件控制

支持文本、边界框等多种条件输入，无需重新训练即可引导生成过程

模型能力

文本到图像生成

图像合成

条件图像生成

使用案例

创意内容生成

艺术创作

根据文字描述生成油画、水彩等艺术风格图像

示例中生成的松鼠吃汉堡油画展示了良好的艺术表现力

设计辅助

概念可视化

快速将文字概念转化为视觉呈现，辅助设计过程

🚀 高分辨率图像合成的潜在扩散模型 (LDM)

潜在扩散模型 (LDM) 通过在预训练自编码器的潜在空间中进行操作，在降低计算复杂度的同时保留图像细节，实现高分辨率图像合成，可用于文本到图像等多种任务。

🚀 快速开始

潜在扩散模型 (LDM) 是一种强大的图像合成模型。你可以按照以下步骤使用它：

# !pip install diffusers transformers
from diffusers import DiffusionPipeline

model_id = "CompVis/ldm-text2im-large-256"

# load model and scheduler
ldm = DiffusionPipeline.from_pretrained(model_id)

# run pipeline in inference (sample random noise and denoise)
prompt = "A painting of a squirrel eating a burger"
images = ldm([prompt], num_inference_steps=50, eta=0.3, guidance_scale=6).images

# save images
for idx, image in enumerate(images):
    image.save(f"squirrel-{idx}.png")

✨ 主要特性

高效计算：通过在预训练自编码器的潜在空间中应用扩散模型，大大减少了计算需求，同时保留了图像合成的质量和灵活性。
灵活生成：引入交叉注意力层，使模型能够处理如文本或边界框等通用条件输入，实现高分辨率的图像合成。
多任务表现：在图像修复、无条件图像生成、语义场景合成和超分辨率等多种任务中取得了优异的成绩。

📚 详细文档

论文信息

论文标题：High-Resolution Image Synthesis with Latent Diffusion Models (LDM)
摘要：通过将图像形成过程分解为去噪自编码器的顺序应用，扩散模型 (DMs) 在图像数据及其他领域取得了最先进的合成结果。此外，其公式允许在不重新训练的情况下控制图像生成过程。然而，由于这些模型通常直接在像素空间中操作，强大的 DMs 优化通常需要数百个 GPU 天，并且由于顺序评估，推理成本很高。为了在有限的计算资源上进行 DM 训练，同时保留其质量和灵活性，我们将它们应用于强大的预训练自编码器的潜在空间中。与以往的工作相比，在这种表示上训练扩散模型首次实现了在复杂度降低和细节保留之间达到接近最优的平衡点，大大提高了视觉保真度。通过在模型架构中引入交叉注意力层，我们将扩散模型转变为强大而灵活的生成器，用于处理如文本或边界框等通用条件输入，并以卷积方式实现高分辨率合成。我们的潜在扩散模型 (LDMs) 在图像修复方面达到了新的技术水平，并在各种任务（包括无条件图像生成、语义场景合成和超分辨率）中取得了极具竞争力的性能，同时与基于像素的 DMs 相比，显著降低了计算需求。