license: openrail++
library_name: diffusers
tags:
- 文生图
- 文本生成图像
- 扩散模型训练
- 扩散模型
- 稳定扩散XL
- 稳定扩散XL扩散器
base_model: stabilityai/stable-diffusion-xl-base-1.0
无参考的边界感知偏好优化对齐扩散模型
我们提出MaPO技术——一种无需参考样本、高效节能且内存友好的文生图扩散模型对齐方法。技术细节请参阅我们的论文。
开发团队
- 洪志佑* (KAIST人工智能研究院)
- 萨亚克·保罗* (Hugging Face)
- 李诺亚 (KAIST人工智能研究院)
- 卡希夫·拉苏尔 (Hugging Face)
- 詹姆斯·索恩 (KAIST人工智能研究院)
- 郑宗宪 (高丽大学)
训练数据
本模型基于Stable Diffusion XL模型,使用yuvalkirstain/pickapic_v2数据集微调而成。
训练代码
参见我们的代码仓库。
定性对比
性能表现
下表展示了MaPO与现有模型的量化指标对比:
美学评分、HPS v2.1和PickScore平均分
|
美学评分 |
HPS v2.1 |
PickScore |
SDXL |
6.03 |
30.0 |
22.4 |
SFT优选 |
5.95 |
29.6 |
22.0 |
扩散DPO |
6.03 |
31.1 |
22.7 |
MaPO (本工作) |
6.17 |
31.2 |
22.5 |
在Imgsys公开基准测试中,MaPO在25个前沿文生图扩散模型中超越或持平21个模型,撰写本文时位列排行榜第7名(对比扩散DPO的第20名),同时在Pick-a-Pic v2数据集上节省了14.5%的训练耗时。感谢imgsys团队提供人类偏好数据支持。
下表展示了MaPO的内存效率优势,使其成为扩散模型对齐微调的更优选择:
扩散DPO与MaPO的计算成本对比
|
扩散DPO |
MaPO (本工作) |
耗时 (↓) |
63.5 |
54.3 (-14.5%) |
显存占用 (↓) |
55.9 |
46.1 (-17.5%) |
最大批次 (↑) |
4 |
16 (×4) |
推理示例
from diffusers import DiffusionPipeline, AutoencoderKL, UNet2DConditionModel
import torch
sdxl_id = "stabilityai/stable-diffusion-xl-base-1.0"
vae_id = "madebyollin/sdxl-vae-fp16-fix"
unet_id = "mapo-t2i/mapo-beta"
vae = AutoencoderKL.from_pretrained(vae_id, torch_dtype=torch.float16)
unet = UNet2DConditionModel.from_pretrained(unet_id, torch_dtype=torch.float16)
pipeline = DiffusionPipeline.from_pretrained(sdxl_id, vae=vae, unet=unet, torch_dtype=torch.float16).to("cuda")
prompt = "中性背景上由大胆流动笔触构成的抽象肖像画"
image = pipeline(prompt=prompt, num_inference_steps=30).images[0]
更多生成效果请访问我们的项目网站。
引用文献
@misc{hong2024marginaware,
title={无参考的边界感知偏好优化对齐扩散模型},
author={洪志佑 and 萨亚克·保罗 and 李诺亚 and 卡希夫·拉苏尔 and 詹姆斯·索恩 and 郑宗宪},
year={2024},
eprint={2406.06424},
archivePrefix={arXiv},
primaryClass={cs.CV}
}