license: other
license_name: playground-v2-community
license_link: https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic/blob/main/LICENSE.md
tags:
- 文生图
- playground
inference:
parameters:
guidance_scale: 3
width: 512
height: 512
Playground v2 – 512px基础模型
本仓库包含一个生成512x512分辨率图像的基础(预训练)模型。
该模型主要用于研究目的,通常无法生成高度美学化的图像。
您可以通过Hugging Face的🧨 Diffusers库使用该模型。

Playground v2是基于扩散原理的文生图生成模型,由Playground研究团队从零开始训练完成。
根据Playground的用户研究显示,用户对Playground v2生成图像的偏好度是Stable Diffusion XL的2.5倍。
我们非常高兴能向社区发布不同训练阶段的中间检查点,包括评估指标。希望这能促进图像生成基础模型的进一步研究。
此外,我们还推出了新的自动美学质量评估基准MJHQ-30K。
更多详情请参阅我们的博客。
模型说明
使用🧨 Diffusers运行模型
安装diffusers >= 0.24.0及依赖项:
pip install transformers accelerate safetensors
运行示例代码:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-512px-base",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16",
)
pipe.to("cuda")
prompt = "丛林中的宇航员,冷色调,柔和色彩,细节丰富,8K画质"
image = pipe(prompt=prompt, width=512, height=512).images[0]
用户研究

Playground进行的用户研究(涵盖2,600多个提示词和数千名用户)显示,用户对Playground v2生成图像的偏好度是Stable Diffusion XL的2.5倍。
我们按照标准流程在PartiPrompts和Playground团队整理的内部提示数据集上报告用户偏好指标。"Internal 1K"提示数据集涵盖多样化类别和任务。
研究要求用户从(1)美学偏好和(2)图文匹配度两个维度评估图像对。
MJHQ-30K基准

我们推出新基准MJHQ-30K,通过高质量数据集上的FID分数自动评估模型美学质量。
该基准从Midjourney精选10个常见类别的高质量数据(每类3,000样本),采用美学评分和CLIP评分确保质量,并保证类别内多样性。
Playground v2在1024x1024分辨率下计算FID,结果显示在综合FID和所有类别FID(尤其是人物和时尚类别)上均优于SDXL-1-0-refiner,与用户研究结果一致,表明人类偏好与MJHQ-30K基准FID分数存在相关性。
我们公开此基准,鼓励社区用于模型美学质量评估。
中间基础模型
除playground-v2-1024px-aesthetic外,我们还发布不同训练阶段的中间检查点以促进像素级基础模型研究。上表展示了MSCOCO14评估集上的FID和CLIP分数(注:由于提示词列表差异,我们的结果可能与SDXL公布数据不同)。
引用方式
@misc{playground-v2,
url={[https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic](https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic)},
title={Playground v2},
author={Li, Daiqing and Kamko, Aleks and Sabet, Ali and Akhgari, Ehsan and Xu, Lin and Doshi, Suhail}
}