PixArt-Sigma-XL-2-1024-MS开源图像生成模型 - 用文本提示轻松产出最高4K高分辨率图

首页

Pixart Sigma XL 2 1024 MS

由 PixArt-alpha 开发

PixArt-Σ是基于Transformer架构的潜在扩散模型，可直接通过文本提示生成高分辨率图像（最高4K）。

图像生成 #高分辨率图像生成 #Transformer扩散模型 #单次采样4K

下载量 7,283

发布时间 : 4/11/2024

模型简介

采用纯Transformer模块构建的潜在扩散模型，支持单次采样生成1024像素、2K及4K分辨率图像，集成T5文本编码器和VAE潜在特征编码器。

模型特点

高分辨率生成

支持单次采样生成最高4K分辨率的图像

高效Transformer架构

采用纯Transformer模块构建，计算效率优于传统扩散模型

多模态集成

集成T5文本编码器和VAE潜在特征编码器，实现高质量文本-图像对齐

模型能力

文本生成图像

高分辨率图像生成

图像编辑

使用案例

创意设计

艺术创作辅助

根据文字描述自动生成创意概念图

快速可视化创意构思

设计原型生成

为产品/界面设计提供快速原型

加速设计迭代过程

教育研究

生成模型研究

探索扩散Transformer架构的性能边界

推动生成模型技术进步

🚀 🐱 PixArt-Σ模型介绍

PixArt-Σ是一个基于扩散Transformer的文生图生成模型，可在单次采样过程中直接从文本提示生成1024px、2K和4K图像，为图像生成领域带来了高效且强大的解决方案。

row01

✨ 主要特性

模型架构

pipeline

PixArt-Σ 由用于潜在扩散的纯Transformer块组成，能够在单次采样过程中直接从文本提示生成1024px、2K和4K图像。源代码可在 GitHub 上获取。

模型详情

属性	详情
开发者	PixArt-Σ
模型类型	基于扩散Transformer的文生图生成模型
许可证	CreativeML Open RAIL++-M License
模型描述	这是一个可用于根据文本提示生成和修改图像的模型，它是一个 Transformer潜在扩散模型，使用一个固定的预训练文本编码器 (T5) 和一个潜在特征编码器 (VAE)。

📦 安装指南

⚠️ 重要提示

确保将diffusers升级到 >= 0.28.0：

pip install -U diffusers --upgrade

此外，确保安装 transformers、safetensors、sentencepiece 和 accelerate：

pip install transformers accelerate safetensors sentencepiece

对于 diffusers<0.28.0，请查看此脚本获取帮助。

💻 使用示例

基础用法

import torch
from diffusers import Transformer2DModel, PixArtSigmaPipeline

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
weight_dtype = torch.float16

pipe = PixArtSigmaPipeline.from_pretrained(
    "PixArt-alpha/PixArt-Sigma-XL-2-1024-MS", 
    torch_dtype=weight_dtype,
    use_safetensors=True,
)
pipe.to(device)

# Enable memory optimizations.
# pipe.enable_model_cpu_offload()

prompt = "A small cactus with a happy face in the Sahara desert."
image = pipe(prompt).images[0]
image.save("./catcus.png")

高级用法

当使用 torch >= 2.0 时，可通过 torch.compile 将推理速度提高20 - 30%。在运行管道之前，简单地用 torch.compile 包装 unet：

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

如果受GPU显存限制，可通过调用 pipe.enable_model_cpu_offload 而不是 .to("cuda") 来启用 CPU卸载：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

更多关于如何使用 diffusers 调用PixArt-Σ的信息，请查看 PixArt-Σ文档。

📚 详细文档

直接用途

该模型仅用于研究目的。可能的研究领域和任务包括：

艺术品生成，以及在设计和其他艺术过程中的应用。
教育或创意工具中的应用。
生成模型的研究。
对有潜在生成有害内容能力的模型进行安全部署。
探索和理解生成模型的局限性和偏差。

超出范围的用途

该模型并非用于生成事实性或真实反映人物或事件的内容，因此使用该模型生成此类内容超出了其能力范围。

🔧 技术细节

局限性

模型无法实现完美的照片级真实感。
模型无法渲染清晰可读的文本。
模型在处理涉及组合性的更复杂任务时存在困难，例如渲染与 “一个红色立方体放在蓝色球体上” 对应的图像。
一般来说，手指等细节可能无法正确生成。
模型的自动编码部分存在信息损失。

偏差

虽然图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏差。

📄 许可证

本模型使用 CreativeML Open RAIL++-M License 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文