TextFlux开源多语言场景文本合成模型 - 免费实现高保真文本合成效果

首页

Textflux

由 yyyyyxie 开发

TextFlux是一个基于无OCR扩散变换器的高保真多语言场景文本合成模型，采用FLUX.1-Fill-dev作为基础模型，专注于场景文本合成任务。

图像生成 #无OCR文本合成 #多语言场景文本 #扩散变换器

下载量 284

发布时间 : 4/21/2025

模型简介

TextFlux是一个无OCR框架，采用扩散变换器实现高保真多语言场景文本合成。该框架通过将渲染的字形与场景图像空间拼接，直接提供视觉字形引导，简化学习任务，使模型专注于上下文推理和视觉融合。

模型特点

无OCR架构

无需OCR编码器的简化结构

高保真与场景风格一致

精确渲染，保持场景风格统一

多语言与低资源适配

跨语言表现优异，少量数据即可适配新语言（如<1,000样本）

零样本泛化能力

可渲染训练中未见的字符

可控多行文本

支持灵活的多行合成与行级控制

数据高效

仅需其他方法约1%的数据量

模型能力

场景文本合成

多语言文本生成

图像与文本融合

零样本字符渲染

多行文本控制

使用案例

场景文本生成

广告牌文本合成

在自然场景中生成逼真的广告牌文本

高保真文本与场景风格一致

多语言标识生成

生成包含多种语言的场景标识

支持训练中未见字符的渲染

🚀 TextFlux：用于高保真多语言场景文本合成的无OCR DiT模型

TextFlux是一个无OCR的DiT模型，用于高保真多语言场景文本合成。它通过将渲染的字形与场景图像进行空间拼接，为模型提供直接的视觉字形指导，简化了学习任务，使模型能够专注于上下文推理和视觉融合。

🚀 快速开始

克隆/下载

获取必要的代码和模型权重。

安装依赖

conda create -n textflux python==3.11.4 -y
conda activate textflux
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

pip install -r requirements.txt
# 确保 diffusers >= 0.32.1

Gradio演示

提供“正常模式”（用于预组合输入）和“自定义模式”（上传场景、绘制掩码、输入文本以自动生成和拼接模板）。

python demo.py

✨ 主要特性

无OCR：简化架构，无需OCR编码器。
高保真与上下文风格：精确渲染，与场景风格一致。
多语言与低资源：跨语言表现出色，只需少量数据（如<1000个样本）即可适应新语言。
零样本泛化：能够渲染训练期间未见的字符。
可控多行文本：灵活的多行合成，支持行级控制。
数据高效：与其他方法相比，仅需使用一小部分数据（如~1%）。

📚 详细文档

更新日志

2025/05/27：我们的全参数权重和LoRA权重现已可用🤗！
2025/05/25：我们的arXiv论文已发布🥳！

致谢

我们的代码基于Diffusers修改。我们采用black-forest-labs/FLUX.1-Fill-dev作为基础模型。感谢所有贡献者的有益讨论！

📄 许可证

TextFlux模型的使用受FLUX.1 [dev] 非商业许可协议（或适用于TextFlux所基于的FLUX.1-Fill-dev的特定版本）的约束。

📚 引用

@misc{xie2025textfluxocrfreeditmodel,
      title={TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis}, 
      author={Yu Xie and Jielei Zhang and Pengyu Chen and Ziyue Wang and Weihang Wang and Longwen Gao and Peiyi Li and Huyang Sun and Qiang Zhang and Qian Qiao and Jiaqing Fan and Zhouhui Lian},
      year={2025},
      eprint={2505.17778},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.17778}, 
}