license: other
license_name: 琥珀许可证-1.0
datasets:
- laion/概念字幕-12m-webdataset
- CaptionEmporium/coyo高清-11m-llavanext
- KBlueLeaf/danbooru2023元数据库
- 基于图说的GBC10M
language:
- en
pipeline_tag: 文本生成
library_name: transformers
TIPO:基于文本预采样的提示优化文本转图像系统
采用LLaMA架构的5亿参数TIPO训练模型。
技术报告:https://arxiv.org/abs/2411.08127

项目简介
本项目推出"TIPO"(基于文本预采样的提示优化文本转图像系统),这一创新框架通过大型语言模型(LLMs)在文生图推理流程中执行"文本预采样",显著提升生成模型的质量与易用性。TIPO通过优化扩展用户输入提示,使生成模型能以最小用户投入产出更优质结果,让文生图系统对更广泛用户群体更友好高效。
使用方式
请使用DTG扩展的升级版(已更名为z-tipo-extension),当前版本支持stable-diffusion-webui、stable-diffusion-webui-forge和ComfyUI平台,SD-Next平台暂未测试。
https://github.com/KohakuBlueleaf/z-tipo-extension
模型架构与训练
本模型采用2亿参数的LLaMA架构,训练数据整合了Danbooru2023和Coyo-HD-11M数据集。
总训练token量约500亿。
详细信息请参阅技术报告及下表:
|
TIPO-200M |
TIPO-500M-微调版 |
TIPO-500M |
架构 |
LLaMA |
LLaMA |
LLaMA |
最大上下文长度 |
1024 |
1024 |
1024 |
批处理大小 |
2048 |
3584 |
3584 |
训练数据集 |
Danbooru+GBC10M(5轮) Danbooru+GBC10M+Coyo11M(3轮) |
Danbooru(pixtral)+GBC10M+Coyo11M(2轮) |
Danbooru+GBC10M+Coyo11M(5轮) |
实际训练token量* |
400亿 |
420亿(比TIPO-500M多120亿) |
300亿 |
训练硬件 |
RTX 3090 x4 |
RTX 3090 x4 |
H100 x8 |
训练时长 |
420小时` |
290小时` |
100小时` |
Huggingface |
KBlueLeaf/TIPO-200M · Hugging Face |
当前模型 |
KBlueLeaf/TIPO-500M · Hugging Face |
*:仅统计"非填充token"的训练量,因所有训练数据长度差异极大
`:由于训练文本普遍较短,达到相同token训练量所需时间远超常规LLM预训练
参考值:若以4096为最大上下文长度且数据均接近该长度,在RTX 3090 x4上训练2亿参数模型仅需2天即可达成100亿token训练量
性能评估
评估基于TIPO-200M模型
我们通过多组测试对比了TIPO与其他模型的性能表现:
场景标签测试
本测试以单一"场景"标签为输入(含特定元数据)
检验各提示生成方法在保持图像质量前提下,能否获得理想的输出分布
场景标签测试 |
原始输入 |
GPT4o-mini |
提示数据库 |
Promptis |
TIPO(本系统) |
FDD ↓ |
0.3558 |
0.5414 |
0.3247 |
0.2350 |
0.2282 |
美学评分 ↑ |
5.0569 |
6.3676 |
6.1609 |
5.9468 |
6.2571 |
AI失真率 ↑ |
0.4257 |
0.7490 |
0.5024 |
0.5669 |
0.9195 |
短文本/截断长文本测试
本测试采用GBC10M和CoyoHD11M中的短描述或人工截断的长描述
检验提示生成方法处理接近完整提示的能力
短文本 |
原始输入 |
GPT4o-mini |
提示数据库 |
Promptis |
TIPO(本系统) |
FDD ↓ |
0.0957 |
0.1668 |
0.0980 |
0.1783 |
0.1168 |
美学评分 ↑ |
5.8370 |
6.0589 |
5.8213 |
5.7963 |
5.8531 |
AI失真率 ↑ |
0.7113 |
0.6985 |
0.7064 |
0.6314 |
0.7131 |
截断长文本 |
原始输入 |
GPT4o-mini |
提示数据库 |
Promptis |
TIPO(本系统) |
FDD ↓ |
0.0955 |
0.1683 |
0.1247 |
0.2096 |
0.1210 |
美学评分 ↑ |
5.7497 |
6.0168 |
5.8191 |
5.7759 |
5.8364 |
AI失真率 ↑ |
0.6868 |
0.6712 |
0.6741 |
0.5925 |
0.7130 |