license: apache-2.0
tags:
- 文本生成图像
- 超现实
- 文本生成图像
- 稳定扩散
- 蒸馏模型
- 知识蒸馏
pinned: true
datasets:
- zzliang/GRIT
- wanng/midjourney-v5-202304-clean
library_name: diffusers
Segmind-Vega 模型卡片
📣 阅读我们的技术报告了解更多关于蒸馏方法的细节
演示
在Segmind-Vega尝试Segmind-Vega模型,体验⚡最快的推理速度。
模型描述
Segmind-Vega模型是Stable Diffusion XL(SDXL)的蒸馏版本,在保持高质量文本生成图像能力的同时,实现了70%的体积缩减和惊人的100%速度提升。该模型在包括Grit和Midjourney抓取数据在内的多样化数据集上训练,擅长根据文本提示生成广泛的视觉内容。
通过采用知识蒸馏策略,Segmind-Vega融合了SDXL、ZavyChromaXL和JuggernautXL等多个专家模型的优势,生成引人注目的视觉输出。
图像对比(Segmind-Vega vs SDXL)



速度对比(Segmind-Vega vs SD-1.5 vs SDXL)
测试在A100 80GB GPU上进行。
(注:所有时间均使用各自的tiny-VAE报告!)
参数对比(Segmind-Vega vs SD-1.5 vs SDXL)

使用方法:
该模型可通过🧨 Diffusers库使用。
确保通过以下命令安装diffusers:
pip install diffusers
此外,请安装transformers
、safetensors
和accelerate
:
pip install transformers accelerate safetensors
使用模型时,可以运行以下代码:
from diffusers import StableDiffusionXLPipeline
import torch
pipe = StableDiffusionXLPipeline.from_pretrained("segmind/Segmind-Vega", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")
prompt = "一只可爱的猫在吃披萨,惊艳的配色,杰作,插画"
neg_prompt = "(最差质量,低质量,插画,3d,2d,绘画,卡通,素描)"
image = pipe(prompt=prompt, negative_prompt=neg_prompt).images[0]
请务必使用负面提示和CFG值约9.0以获得最佳质量!
模型描述
关键特性
-
文本生成图像: Segmind-Vega模型擅长根据文本提示生成图像,支持广泛的创意应用。
-
为速度优化: 该模型设计高效,提供惊人的100%速度提升,适合实时应用和需要快速图像生成的场景。
-
多样化训练数据: 在多样化数据集上训练,模型能有效处理各种文本提示并生成对应图像。
-
知识蒸馏: 通过从多个专家模型蒸馏知识,Segmind-Vega模型结合了它们的优势并最小化其局限,从而提升性能。
模型架构
Segmind-Vega模型是紧凑版本,相比基础SDXL模型实现了显著的70%体积缩减。

训练信息
以下是训练中使用的主要超参数:
- 步数: 540,000
- 学习率: 1e-5
- 批量大小: 16
- 梯度累积步数: 8
- 图像分辨率: 1024
- 混合精度: fp16
模型来源
出于研究和开发目的,可通过Segmind AI平台访问Segmind-Vega模型。更多信息和访问详情,请访问Segmind。
用途
直接使用
Segmind-Vega模型适用于研究和多个领域的实际应用,包括:
-
艺术与设计: 可用于生成艺术作品、设计和其他创意内容,提供灵感并增强创作过程。
-
教育: 该模型可应用于教育工具,为教学和学习目的创建视觉内容。
-
研究: 研究人员可利用该模型探索生成模型,评估其性能,并推动文本生成图像的边界。
-
安全内容生成: 提供安全可控的内容生成方式,减少有害或不适当输出的风险。
-
偏见与局限分析: 研究人员和开发者可用该模型探测其局限性和偏见,促进对生成模型行为的更好理解。
下游使用
Segmind-Vega模型也可直接与🧨 Diffusers库的训练脚本结合使用,包括:
export MODEL_NAME="segmind/Segmind-Vega"
export VAE_NAME="madebyollin/sdxl-vae-fp16-fix"
export DATASET_NAME="lambdalabs/pokemon-blip-captions"
accelerate launch train_text_to_image_lora_sdxl.py \
--pretrained_model_name_or_path=$MODEL_NAME \
--pretrained_vae_model_name_or_path=$VAE_NAME \
--dataset_name=$DATASET_NAME --caption_column="text" \
--resolution=1024 --random_flip \
--train_batch_size=1 \
--num_train_epochs=2 --checkpointing_steps=500 \
--learning_rate=1e-04 --lr_scheduler="constant" --lr_warmup_steps=0 \
--mixed_precision="fp16" \
--seed=42 \
--output_dir="vega-pokemon-model-lora" \
--validation_prompt="可爱的龙生物" --report_to="wandb" \
--push_to_hub
export MODEL_NAME="segmind/Segmind-Vega"
export VAE_NAME="madebyollin/sdxl-vae-fp16-fix"
export DATASET_NAME="lambdalabs/pokemon-blip-captions"
accelerate launch train_text_to_image_sdxl.py \
--pretrained_model_name_or_path=$MODEL_NAME \
--pretrained_vae_model_name_or_path=$VAE_NAME \
--dataset_name=$DATASET_NAME \
--enable_xformers_memory_efficient_attention \
--resolution=1024 --center_crop --random_flip \
--proportion_empty_prompts=0.2 \
--train_batch_size=1 \
--gradient_accumulation_steps=4 --gradient_checkpointing \
--max_train_steps=10000 \
--use_8bit_adam \
--learning_rate=1e-06 --lr_scheduler="constant" --lr_warmup_steps=0 \
--mixed_precision="fp16" \
--report_to="wandb" \
--validation_prompt="可爱的Sundar Pichai生物" --validation_epochs 5 \
--checkpointing_steps=5000 \
--output_dir="vega-pokemon-model" \
--push_to_hub
export MODEL_NAME="segmind/Segmind-Vega"
export INSTANCE_DIR="dog"
export OUTPUT_DIR="lora-trained-vega"
export VAE_PATH="madebyollin/sdxl-vae-fp16-fix"
accelerate launch train_dreambooth_lora_sdxl.py \
--pretrained_model_name_or_path=$MODEL_NAME \
--instance_data_dir=$INSTANCE_DIR \
--pretrained_vae_model_name_or_path=$VAE_PATH \
--output_dir=$OUTPUT_DIR \
--mixed_precision="fp16" \
--instance_prompt="一张sks狗的照片" \
--resolution=1024 \
--train_batch_size=1 \
--gradient_accumulation_steps=4 \
--learning_rate=1e-5 \
--report_to="wandb" \
--lr_scheduler="constant" \
--lr_warmup_steps=0 \
--max_train_steps=500 \
--validation_prompt="桶中的sks狗照片" \
--validation_epochs=25 \
--seed="0" \
--push_to_hub
超出范围的使用
Segmind-Vega模型不适合创建人物、事件或现实世界信息的真实或准确表示。它不适用于需要高精度和准确性的任务。
局限性与偏见
局限性与偏见:
Segmind-Vega模型在实现绝对照片级真实感方面面临挑战,尤其是在人物描绘上。尽管由于自编码方法,它在融入清晰文本和保持复杂构图保真度方面可能遇到困难,但这些挑战为未来改进提供了机会。重要的是,尽管模型接触了多样化数据集,这并不能完全消除根深蒂固的社会和数字偏见,但它代表了迈向更公平技术的基础一步。鼓励用户以理解其当前局限性的态度与这一开创性工具互动,营造一种有意识的参与环境,并期待其持续进化。
引用
@misc{gupta2024progressive,
title={Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss},
author={Yatharth Gupta and Vishnu V. Jaddipal and Harish Prabhala and Sayak Paul and Patrick Von Platen},
year={2024},
eprint={2401.02677},
archivePrefix={arXiv},
primaryClass={cs.CV}
}