基础模型:
- Alpha-VLLM/Lumina-Image-2.0
数据集:
- X-ART/LeX-10K
库名称: diffusers
许可证: mit
管道标签: 文本生成图像
标签:
- 艺术
- 文本渲染
LeX-Art:通过可扩展的高质量数据合成重新思考文本生成
本仓库包含论文LeX-Art:通过可扩展的高质量数据合成重新思考文本生成中提出的模型。
论文摘要如下:
我们推出了LeX-Art,这是一个高质量文本图像合成的综合套件,系统性地弥合了提示表达与文本渲染保真度之间的鸿沟。我们的方法遵循以数据为中心的范式,基于Deepseek-R1构建了一个高质量的数据合成流程,精心策划了LeX-10K数据集,包含10,000张高分辨率、经过美学优化的1024×1024图像。除了数据集构建,我们还开发了LeX-Enhancer,一个强大的提示增强模型,并训练了两个文本生成图像模型——LeX-FLUX和LeX-Lumina,实现了最先进的文本渲染性能。为了系统评估视觉文本生成,我们引入了LeX-Bench基准测试,评估保真度、美学和一致性,并辅以Pairwise Normalized Edit Distance(PNED),这是一种用于稳健文本准确性评估的新指标。实验表明,LeX-Lumina实现了22.16%的PNED提升,LeX-FLUX在颜色(+10.32%)、位置(+5.60%)和字体准确性(+5.63%)上均优于基线。代码、模型、数据集和演示均已公开。
LeX-Lumina的使用方法:
import torch
from diffusers import Lumina2Pipeline
pipe = Lumina2Pipeline.from_pretrained("X-ART/LeX-Lumina", torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "图像以粗犷、戏剧性的设计为中心,围绕文本元素\"THE\"、\"RA\"和\"SA4GONEARAz\"排列,形成*The Boulet Brothers Dragula Season Three*的标题。背景是带有微弱污渍图案的深石板灰色纹理表面,增添了粗犷的工业感。单词\"THE\"位于顶部,采用锯齿状、血红色的大字母,带有光泽效果和轻微阴影,唤起恐怖美学。下方,\"RA\"出现在中间左侧,以金属银色呈现,带有碎裂纹理,而\"SA4GONEARAz\"则动态地向右弯曲,其字母采用霓虹绿和黑色渐变风格,带有赛博朋克风格的棱角边缘。\"SA4GONEARAz\"中的数字\"4\"替代了\"A\",无缝融入风格化排版。纤细的发光紫色轮廓突出了文本,与深色背景形成对比。微弱的紫罗兰和深红色光线斜向穿过构图,在字母周围投射出淡淡的光晕。整体布局平衡了不对称与连贯性,结合了锐利的棱角和有机与机械设计元素的混合,创造出一种视觉强烈而又精致的美学,融合了哥特式恐怖与未来主义边缘。"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=4.0,
num_inference_steps=50,
cfg_trunc_ratio=1,
cfg_normalization=True,
generator=torch.Generator("cpu").manual_seed(0),
system_prompt="您是一个旨在根据文本提示或用户提示生成具有高度图文一致性的优质图像的助手。",
).images[0]
image.save("lex_lumina_demo.png")
另请参阅:
@article{zhao2025lexart,
title={LeX-Art:通过可扩展的高质量数据合成重新思考文本生成},
author={赵世天 and 吴启龙 and 李新月 and 张博 and 李明 and 秦琦 and 刘东阳 and 张开鹏 and 李宏升 and 乔宇 and 高鹏 and 付斌 and 李真},
journal={arXiv预印本 arXiv:2503.21749},
year={2025}
}