许可协议:openrail++
标签:
🐱 Pixart-α 模型卡片

模型架构

Pixart-α 采用纯Transformer模块构建的潜在扩散模型:
可直接通过单次采样过程从文本提示生成1024像素图像。
源代码已发布于 https://github.com/PixArt-alpha/PixArt-alpha。
模型描述
模型来源
研究用途推荐使用generative-models
代码库(https://github.com/PixArt-alpha/PixArt-alpha),该版本更适合训练推理,并会持续集成SA-Solver等先进采样器。Hugging Face提供免费推理服务。
- 代码库: https://github.com/PixArt-alpha/PixArt-alpha
- 演示平台: https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha
🔥🔥🔥 PixArt-α核心优势
训练效率
PixArt-α仅消耗Stable Diffusion v1.5训练时间的10.8%(675 vs. 6,250 A100 GPU天),节省近30万美元(2.6万 vs. 32万美元),减少90%碳排放。相比当前更大规模的SOTA模型RAPHAEL,训练成本仅为其1%。

方法 |
类型 |
参数量 |
训练图像数 |
A100 GPU天 |
DALL·E |
扩散 |
12.0B |
1.54B |
- |
GLIDE |
扩散 |
5.0B |
5.94B |
- |
LDM |
扩散 |
1.4B |
0.27B |
- |
DALL·E 2 |
扩散 |
6.5B |
5.63B |
41,66 |
SDv1.5 |
扩散 |
0.9B |
3.16B |
6,250 |
GigaGAN |
GAN |
0.9B |
0.98B |
4,783 |
Imagen |
扩散 |
3.0B |
15.36B |
7,132 |
RAPHAEL |
扩散 |
3.0B |
5.0B |
60,000 |
PixArt-α |
扩散 |
0.6B |
0.025B |
675 |
性能评估
上图展示了用户对Pixart-α与SDXL 0.9、Stable Diffusion 2、DALLE-2及DeepFloyd的偏好评估。Pixart-α基础模型表现媲美甚至超越现有SOTA模型。
🧨 Diffusers 集成
确保安装diffusers>=0.22.0:
pip install -U diffusers --upgrade
同时安装依赖库:
pip install transformers accelerate safetensors sentencepiece
基础模型调用示例:
from diffusers import PixArtAlphaPipeline
import torch
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-1024-MS", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "宇航员骑着绿色骏马"
images = pipe(prompt=prompt).images[0]
使用torch>=2.0时,可通过torch.compile提升20-30%推理速度:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
GPU显存不足时可启用CPU卸载:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
更多用法详见Pixart-α文档。
免费Colab体验
点击此处通过Google Colab免费试用。
使用场景
直接应用
本模型仅限研究用途,适用场景包括:
- 艺术创作与设计辅助
- 教育/创意工具开发
- 生成模型研究
- 可控内容生成技术探索
- 生成模型局限性分析
非适用场景
该模型未针对人物/事件的事实性呈现进行训练,相关生成内容不属于模型设计目标。
局限性
技术限制
- 尚未实现完美逼真度
- 无法生成可识别文字
- 复杂组合场景(如"蓝色球体上的红色立方体")处理能力有限
- 手指等细节生成可能不准确
- 自编码模块存在信息损失
潜在偏见
图像生成模型可能放大社会偏见,使用时需特别注意。