T

Textflux

由 yyyyyxie 开发
TextFlux是一个基于无OCR扩散变换器的高保真多语言场景文本合成模型,采用FLUX.1-Fill-dev作为基础模型,专注于场景文本合成任务。
下载量 284
发布时间 : 4/21/2025
模型介绍
内容详情
替代品

模型简介

TextFlux是一个无OCR框架,采用扩散变换器实现高保真多语言场景文本合成。该框架通过将渲染的字形与场景图像空间拼接,直接提供视觉字形引导,简化学习任务,使模型专注于上下文推理和视觉融合。

模型特点

无OCR架构
无需OCR编码器的简化结构
高保真与场景风格一致
精确渲染,保持场景风格统一
多语言与低资源适配
跨语言表现优异,少量数据即可适配新语言(如<1,000样本)
零样本泛化能力
可渲染训练中未见的字符
可控多行文本
支持灵活的多行合成与行级控制
数据高效
仅需其他方法约1%的数据量

模型能力

场景文本合成
多语言文本生成
图像与文本融合
零样本字符渲染
多行文本控制

使用案例

场景文本生成
广告牌文本合成
在自然场景中生成逼真的广告牌文本
高保真文本与场景风格一致
多语言标识生成
生成包含多种语言的场景标识
支持训练中未见字符的渲染