许可证: 其他
许可证名称: 琥珀许可证1.0
数据集:
- laion/conceptual-captions-12m-webdataset
- CaptionEmporium/coyo-hd-11m-llavanext
- KBlueLeaf/danbooru2023-metadata-database
- graph-based-captions/GBC10M
语言:
- 英文
任务标签: 文本生成
库名称: transformers
TIPO:基于文本预采样的提示优化文本转图像技术
采用LLaMA架构的5亿参数模型,专为TIPO训练而成。
技术报告详见:https://arxiv.org/abs/2411.08127

项目简介
本项目推出"TIPO"(基于文本预采样的提示优化文本转图像技术),这一创新框架通过大语言模型(LLMs)在文本转图像生成流程中执行"文本预采样",显著提升生成模型的质量与易用性。TIPO通过优化和扩展用户输入提示,使生成模型能以最小用户投入产出更优质结果,让文本转图像系统对更广泛用户群体更加友好高效。
使用说明
请使用DTG扩展的升级版(已更名为z-tipo-extension),当前版本支持stable-diffusion-webui、stable-diffusion-webui-forge和ComfyUI平台(SD-Next暂未测试)。
https://github.com/KohakuBlueleaf/z-tipo-extension
模型架构与训练
本模型采用2亿参数的LLaMA架构,训练数据整合了Danbooru2023和Coyo-HD-11M数据集。
总训练token量约500亿。
详细信息请参阅技术报告及下表:
|
TIPO-200M |
TIPO-200M-ft |
TIPO-500M |
架构 |
LLaMA |
LLaMA |
LLaMA |
最大上下文长度 |
1024 |
1024 |
1024 |
批处理大小 |
2048 |
2048 |
3584 |
训练数据集 |
Danbooru+GBC10M(5轮) Danbooru+GBC10M+Coyo11M(3轮) |
Danbooru(pixtral)+Coyo11M(2轮) |
Danbooru+GBC10M+Coyo11M(5轮) |
实际训练token量* |
400亿 |
500亿(比TIPO-200M多100亿) |
300亿 |
训练硬件 |
RTX 3090×4 |
RTX 3090×4 |
H100×8 |
训练时长 |
420小时` |
120小时` |
100小时` |
Huggingface |
KBlueLeaf/TIPO-200M |
KBlueLeaf/TIPO-200M-ft |
当前页面 |
*注:仅统计"非填充token"的训练量,因所有训练数据长度差异较大
`注:由于训练文本普遍较短,达到相同token训练量所需时间比常规LLM预训练更长。参考:若以4096为最大长度且数据均接近该长度,在RTX3090×4上训练2亿参数模型仅需2天即可完成100亿token训练。
性能评估
基于TIPO-200M模型的测试结果
我们通过多项测试指标对比TIPO与其他模型的表现:
场景标签测试
以单一"场景"标签为输入(含特定元数据),检验各提示生成方法在保持图像质量前提下获取理想输出分布的能力。
场景标签测试 |
原始输入 |
GPT4o-mini |
Prompt DB |
Promptis |
TIPO(本模型) |
FDD ↓ |
0.3558 |
0.5414 |
0.3247 |
0.2350 |
0.2282 |
美学评分 ↑ |
5.0569 |
6.3676 |
6.1609 |
5.9468 |
6.2571 |
AI失真率 ↑ |
0.4257 |
0.7490 |
0.5024 |
0.5669 |
0.9195 |
短文本/截断长文本测试
使用GBC10M和CoyoHD11M中的短描述或人工截断描述,检验各方法处理接近完整提示的能力。
短文本 |
原始输入 |
GPT4o-mini |
Prompt DB |
Promptis |
TIPO(本模型) |
FDD ↓ |
0.0957 |
0.1668 |
0.0980 |
0.1783 |
0.1168 |
美学评分 ↑ |
5.8370 |
6.0589 |
5.8213 |
5.7963 |
5.8531 |
AI失真率 ↑ |
0.7113 |
0.6985 |
0.7064 |
0.6314 |
0.7131 |
截断长文本 |
原始输入 |
GPT4o-mini |
Prompt DB |
Promptis |
TIPO(本模型) |
FDD ↓ |
0.0955 |
0.1683 |
0.1247 |
0.2096 |
0.1210 |
美学评分 ↑ |
5.7497 |
6.0168 |
5.8191 |
5.7759 |
5.8364 |
AI失真率 ↑ |
0.6868 |
0.6712 |
0.6741 |
0.5925 |
0.7130 |
许可协议
本模型采用琥珀许可证1.0发布
可通过上述链接或查看本仓库LICENSE文件获取详情。
引用格式
@misc{yeh2024tipotextimagetext,
title={TIPO: 基于文本预采样的提示优化文本转图像技术},
author={叶世英 and 朴尚贤 and 吴基荣 and 宋敏 and 柳永载},
year={2024},
eprint={2411.08127},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.08127},
}