许可证: mit
流水线标签: 文本生成图像
标签:
- ImageNet
- arxiv:2502.21318
- 扩散模型
- 模型中心混合
- PyTorch模型中心混合
- 代码库: https://github.com/lucasdegeorge/T2I-ImageNet
本仓库包含论文《基于ImageNet的文本生成图像技术能走多远?》的代码与模型。
核心观点在于:传统文本生成图像模型通常依赖海量数据集,重视数量而忽视质量。常规解决方案是收集庞大数据。我们提出创新方法——通过对精挑细选的小型数据集进行策略性数据增强,从而提升模型性能。实验证明该方法在多个基准测试中显著提升生成图像质量。
论文链接: https://arxiv.org/pdf/2502.21318
GitHub仓库: https://github.com/lucasdegeorge/T2I-ImageNet
项目主页: https://lucasdegeorge.github.io/projects/t2i_imagenet/
安装指南
首先创建Python虚拟环境(需3.9+版本),克隆代码库后运行:
pip install -e .
详见说明文档
预训练模型
CAD-I模型
本仓库模型采用文本增强与图像增强联合训练。仅使用文本增强的模型参见此处
使用预训练模型方法:
from pipe import T2IPipeline
pipe = T2IPipeline("Lucasdegeorge/CAD-I").to("cuda")
prompt = "一只可爱的水獭,披着光滑的棕色皮毛,睁着明亮好奇的眼睛,正与一簇鲜嫩的西兰花嬉戏..."
image = pipe(prompt, cfg=15)
若仅需下载模型(不含采样流程):
from pipe import CAD
model = CAD.from_pretrained("Lucasdegeorge/CAD-I")
DiT-I模型
即将上线...
提示词技巧
我们的模型专为处理超长细节描述而优化。为获得最佳效果,建议使用富含细节的提示词。简短模糊的提示可能无法充分发挥模型潜力。
示例提示词:
(此处保留原文六个详细场景描述的英文段落,实际翻译时应完整汉化)
流水线使用指南
T2IPipeline
类提供完整的文本生成图像接口:
基础用法
from pipe import T2IPipeline
pipe = T2IPipeline("Lucasdegeorge/CAD-I").to("cuda")
prompt = "(中文描述场景)"
image = pipe(prompt, cfg=15)
高级配置
支持多种自定义选项:
pipe = T2IPipeline(
model_path="Lucasdegeorge/CAD-I",
sampler="ddim",
scheduler="sigmoid",
postprocessing="sd_1_5_vae",
scheduler_start=-3,
scheduler_end=3,
scheduler_tau=1.1,
device="cuda"
)
生成参数控制
image = pipe(
cond="美丽风景",
num_samples=4,
cfg=15,
guidance_type="constant",
thresholding_type="clamp",
clamp_value=1.0
)
引导类型说明
constant
: 全程均匀引导
linear
: 线性增强引导强度
exponential
: 指数增强引导强度
阈值处理类型
clamp
: 固定范围截断
dynamic
: 基于批统计动态调整
percentile
: 百分位阈值法
引用规范
若使用本研究成果,请引用:
@article{degeorge2025farimagenettexttoimagegeneration,
title ={基于ImageNet的文本生成图像技术能走多远?},
author ={卢卡斯·德乔治 等},
year ={2025},
journal ={arXiv},
}