Pixart XL 2 512x512

由 PixArt-alpha 开发

Pixart-α是基于Transformer架构的文本生成图像模型，可直接通过文本提示生成1024像素图像，训练效率显著优于同类模型。

文本生成图像 #高效文本生图 #Transformer扩散 #低训练成本

下载量 3,971

发布时间 : 11/4/2023

模型介绍

内容详情

替代品

模型简介

采用纯Transformer模块构建的潜在扩散模型，使用固定预训练文本编码器(T5)和潜在特征编码器(VAE)，能够高效生成高质量图像。

模型特点

高效训练

仅需Stable Diffusion v1.5训练时间的10.8%，节省近30万美元成本，减少90%碳排放

高质量生成

在用户评估中表现媲美甚至超越SDXL、DALLE-2等SOTA模型

直接高分辨率生成

单次采样即可生成1024像素图像，无需多阶段处理

模型能力

文本生成图像

高分辨率图像生成

艺术创作

设计辅助

使用案例

创意设计

艺术创作

根据文字描述生成艺术作品

生成具有艺术风格的图像

概念设计

快速生成产品/场景概念图

帮助设计师快速可视化创意

教育研究

生成模型研究

研究扩散模型的训练效率和生成质量

提供高效的模型架构参考

license: openrail++ tags:

文本生成图像
Pixart-α

🐱 Pixart-α 模型卡片

row01

模型架构

pipeline

Pixart-α 采用纯Transformer模块构建的潜在扩散模型：
可直接通过文本提示在单次采样过程中生成1024像素图像。
源代码已发布于 https://github.com/PixArt-alpha/PixArt-alpha。

模型描述

开发团队: Pixart-α
模型类型: 基于扩散Transformer的文本生成图像模型
许可协议: CreativeML Open RAIL++-M 许可证
模型说明: 该模型可根据文本提示生成和修改图像，是采用Transformer潜在扩散架构的模型，使用固定预训练文本编码器(T5)和潜在特征编码器(VAE)。
更多资源: 请访问我们的GitHub仓库及arXiv论文。

模型来源

研究用途推荐使用generative-models代码库(https://github.com/PixArt-alpha/PixArt-alpha)，该库支持训练推理且将持续集成SA-Solver等先进采样器。
Hugging Face提供免费在线推理。

代码库: https://github.com/PixArt-alpha/PixArt-alpha
演示平台: https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha

🔥🔥🔥 Pixart-α核心优势

训练效率

PixArt-α仅需Stable Diffusion v1.5训练时间的10.8%(675 vs. 6,250 A100 GPU天)，节省近30万美元($26,000 vs. $320,000)并减少90%碳排放。相较当前更大规模的RAPHAEL模型，训练成本仅为其1%。训练效率对比

方法	类型	参数量	训练图像数	A100 GPU天
DALL·E	扩散	12.0B	1.54B	-
GLIDE	扩散	5.0B	5.94B	-
LDM	扩散	1.4B	0.27B	-
DALL·E 2	扩散	6.5B	5.63B	41,66
SDv1.5	扩散	0.9B	3.16B	6,250
GigaGAN	GAN	0.9B	0.98B	4,783
Imagen	扩散	3.0B	15.36B	7,132
RAPHAEL	扩散	3.0B	5.0B	60,000
PixArt-α	扩散	0.6B	0.025B	675

性能评估

对比测试上图显示用户对Pixart-α与SDXL 0.9、Stable Diffusion 2、DALLE-2及DeepFloyd的偏好评估。Pixart-α基础模型表现媲美甚至超越现有SOTA模型。

🧨 Diffusers 调用

确保安装diffusers>=0.22.0：

pip install -U diffusers --upgrade

同时安装依赖库：

pip install transformers accelerate safetensors

基础模型调用示例：

from diffusers import PixArtAlphaPipeline
import torch

pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-512x512", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# torch<2.0需启用以下优化
# pipe.enable_xformers_memory_efficient_attention()

prompt = "宇航员骑着绿色骏马"
images = pipe(prompt=prompt).images[0]

使用torch>=2.0时，可通过torch.compile提升20-30%推理速度：

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

GPU显存不足时可启用CPU卸载：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

更多用法详见Pixart-α文档。

免费Colab体验

点击此处通过Google Colab免费试用。

使用范围

适用场景

本模型仅限研究用途，包括但不限于：

艺术创作与设计辅助
教育/创意工具开发
生成模型研究
内容安全部署研究
生成模型局限性探索

非适用场景

本模型未针对事实性内容进行优化，生成人物/事件的真实表征不属于模型能力范围。

局限性

技术限制

无法实现完美照片级真实感
无法生成可识别文字
复杂组合场景（如"蓝色球体上的红色立方体"）表现欠佳
手指等细节生成可能不准确
自编码模块存在信息损失

偏见风险

图像生成能力可能放大社会偏见。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

AIbase是一个专注于MCP服务的平台，为AI开发者提供高质量的模型上下文协议服务，助力AI应用开发。

简体中文

热门模型

Llama 3 Typhoon V1.5x 8b Instruct

Cadet Tiny

Roberta Base Chinese Extractive Qa

热门模型分类

热门标签