TransPixar开源文本到视频模型 - 免费生成含透明度通道的RGBA视频

首页

Transpixar

由 wileewang 开发

TransPixar是一种能够生成包含透明度通道（alpha通道）的RGBA视频的文本到视频生成模型

视频处理开源协议:Apache-2.0 #透明视频生成 #RGBA通道 #视觉特效

下载量 95

发布时间 : 12/31/2024

模型简介

TransPixar通过扩展预训练视频模型实现RGBA生成，同时保留原始RGB生成能力，为视觉特效和交互式内容创作提供新可能

模型特点

RGBA视频生成

能够生成包含透明度通道的视频，实现透明元素与场景的无缝融合

双通道一致性

通过优化注意力机制，实现RGB与alpha通道的高一致性联合生成

有限数据训练

在有限训练数据下仍能保持原始RGB模型优势

模型能力

文本到RGBA视频生成

图像到RGBA视频生成

透明特效视频生成

使用案例

视觉特效

烟雾特效生成

生成带有透明通道的烟雾特效视频

可实现与场景的自然融合

反射效果生成

生成带有透明反射效果的特效视频

增强场景真实感

内容创作

交互式内容制作

为交互式应用生成带透明通道的视频素材

便于后期合成和处理

🚀 TransPixar：以透明度提升文本到视频生成能力

文本到视频生成模型在娱乐、广告和教育等领域有着广泛的应用。然而，生成包含透明度信息（RGBA）的视频仍然是一个挑战，因为相关数据集有限，且现有模型难以适应。透明度通道（Alpha通道）对于视觉效果（VFX）至关重要，它能让烟雾、反射等透明元素无缝融入场景。本项目提出了 TransPixar 方法，可扩展预训练视频模型以生成 RGBA 视频，同时保留原有的 RGB 生成能力。

代码仓库：https://github.com/wileewang/TransPixar

作者信息：

单位：香港科技大学（广州）、香港科技大学、Adobe 研究院

* 实习项目 ** 项目负责人 † 通讯作者

🚀 快速开始

本仓库包含了论文 TransPixar: Advancing Text-to-Video Generation with Transparency 中的模型。

✨ 主要特性

文本到视频生成模型已经取得了显著进展，但生成包含透明度信息的 RGBA 视频仍然是一个挑战。我们提出的 TransPixar 方法具有以下特性：

扩展预训练模型：在保留原有 RGB 生成能力的基础上，扩展预训练视频模型以生成 RGBA 视频。
扩散变压器架构：采用扩散变压器（DiT）架构，结合特定于 Alpha 通道的令牌，并使用基于 LoRA 的微调方法，以高度一致的方式联合生成 RGB 和 Alpha 通道。
优化注意力机制：通过优化注意力机制，保留原始 RGB 模型的优势，并在有限的训练数据下实现 RGB 和 Alpha 通道之间的强对齐。

📦 安装指南

conda create -n TransPixar python=3.10
conda activate TransPixar
pip install -r requirements.txt

📚 详细文档

TransPixar LoRA 中心

我们的管道支持各种视频任务，包括文本到 RGBA 视频、图像到 RGBA 视频。我们为不同任务提供了以下预训练的 LoRA 权重：

任务	基础模型	帧数	LoRA 权重
T2V + RGBA	genmo/mochi-1-preview	37	即将推出
T2V + RGBA	THUDM/CogVideoX-5B	49	链接
I2V + RGBA	THUDM/CogVideoX-5b-I2V	49	即将推出

训练 - RGB + Alpha 联合生成

我们已经开源了在 RGBA 联合生成任务上对 Mochi 进行训练的代码。详细信息请参考 Mochi README。

推理

Gradio 演示

除了 Hugging Face 在线演示，用户还可以通过运行以下命令在本地启动基于 CogVideoX-5B 的推理演示：

python app.py

命令行界面（CLI）

要生成 RGBA 视频，请导航到视频模型的相应目录并执行以下命令：

python cli.py \
    --lora_path /path/to/lora \
    --prompt "..." \

📄 许可证

本项目采用 Apache-2.0 许可证。

致谢

finetrainers：我们参考了他们对 Mochi 进行训练和推理的实现。
CogVideoX：我们参考了他们对 CogVideoX 进行训练和推理的实现。

感谢他们的杰出工作以及对开源社区的慷慨贡献。

引用

@misc{wang2025transpixar,
    title={TransPixar: Advancing Text-to-Video Generation with Transparency}, 
    author={Luozhou Wang and Yijun Li and Zhifei Chen and Jui-Hsien Wang and Zhifei Zhang and He Zhang and Zhe Lin and Yingcong Chen},
    year={2025},
    eprint={2501.03006},
    archivePrefix={arXiv},
    primaryClass={cs.CV},
    url={https://arxiv.org/abs/2501.03006}, 
}