许可协议: 其他
协议名称: playground-v2-community
协议链接: https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic/blob/main/LICENSE.md
标签:
- 文本生成图像
- 游乐场
推理参数:
参数:
引导比例: 3.0
Playground v2 – 1024像素美学模型
本仓库包含一个能生成1024x1024分辨率高美学图像的模型。您可通过Hugging Face的🧨 Diffusers库使用该模型。

Playground v2是基于扩散原理的文本生成图像模型。该模型由Playground研究团队从零开始训练完成。
根据Playground的用户调研显示,用户对Playground v2生成图像的偏好度是Stable Diffusion XL的2.5倍。
我们非常高兴能向社区发布不同训练阶段的中间检查点,包括评估指标。希望这能促进图像生成基础模型的进一步研究。
此外,我们还推出了新的自动评估标准MJHQ-30K,用于衡量模型的美学质量。
详情请参阅我们的博客文章。
模型说明
使用🧨 Diffusers运行模型
安装diffusers >= 0.24.0及依赖项:
pip install transformers accelerate safetensors
运行以下代码使用模型:
注意:推荐使用**guidance_scale=3.0
**参数。
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-1024px-aesthetic",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16"
)
pipe.to("cuda")
prompt = "宇航员在丛林中,冷色调,柔和色彩,细节丰富,8K画质"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]
在Automatic1111/ComfyUI中使用
如需在Automatic1111或ComfyUI等软件中使用,可下载playground-v2.fp16.safetensors
文件。
用户调研

根据Playground对2600多个提示词和数千名用户的调研显示,用户对Playground v2生成图像的偏好度是Stable Diffusion XL的2.5倍。
我们按照标准流程在PartiPrompts和Playground团队精选的内部"Internal 1K"提示集上报告了用户偏好指标。该内部数据集涵盖多样化类别和任务。
调研中要求用户从(1)美学偏好和(2)图文匹配度两个维度评估图像对。
MJHQ-30K基准

我们推出新基准MJHQ-30K,通过计算高质量数据集上的FID来评估模型美学质量。
该基准从Midjourney精选10个常见类别的高质量数据,每类含3000样本。我们采用美学评分和CLIP评分确保图像质量与图文匹配度,并保证每个类别内部的多样性。
对于Playground v2,我们报告了综合FID和各类别FID(均以1024x1024分辨率计算)。结果显示本模型在综合FID和所有类别FID上均优于SDXL-1-0-refiner,尤其在人物和时尚类别表现突出——这与用户调研结果一致,表明人类偏好与MJHQ-30K基准的FID分数存在相关性。
我们公开此基准,鼓励社区采用它来评估模型美学质量。
中间基础模型
除playground-v2-1024px-aesthetic外,我们还发布了不同训练阶段的中间检查点以促进像素级基础模型研究。上表展示了这些模型在MSCOCO14评估集上的FID和CLIP分数(注:由于提示词列表可能不同,我们的报告数值可能与SDXL公布结果存在差异)。
引用方式
@misc{playground-v2,
url={[https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic](https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic)},
title={Playground v2},
author={李岱青 and 亚历克斯·卡姆科 and 阿里·萨贝特 and 埃桑·阿赫加里 and 徐林苗 and 苏海尔·多希}
}