Text2Motion开源视频生成模型套件 - 支持文本、图像生成视频任务

首页

Text2motion

由 Quantamhash 开发

开放且先进的大规模视频生成模型套件，支持文本生成视频、图像生成视频等多种任务

文本生成视频英语开源协议:Apache-2.0 #双语视频生成 #高动态画面 #消费级显卡适配

下载量 233

发布时间 : 3/21/2025

模型简介

文本转动态是一套全面开放的视频基础模型套件，突破视频生成边界，支持中英双语文本生成，兼容480P/720P双分辨率

模型特点

顶尖性能

在多项基准测试中超越现有开源模型和商业解决方案

消费级显卡支持

T2V-1.3B模型仅需8.19GB显存，RTX 4090上生成5秒480P视频约4分钟

多任务支持

支持文本生成视频、图像生成视频、视频编辑等多种任务

双语文本生成

首个支持中英双语文本生成的视频模型

高效视频VAE

编解码任意长度1080P视频时保持时序信息，效率与性能俱佳

模型能力

文本生成视频

图像生成视频

视频编辑

文本生成图像

视频生成音频

使用案例

娱乐内容创作

动画短片生成

根据文本描述生成拟人化动物动画

示例：生成两只拟人化猫咪拳击比赛的480P/720P视频

广告制作

产品展示视频

根据产品描述自动生成展示视频

🚀 文本转动态视频模型Text2Motion

Text2Motion 是一套全面且开放的视频基础模型套件，突破了视频生成的界限。它具备先进的性能和广泛的功能，能在多个视频生成任务中表现出色，为视频生成领域带来了新的发展。

🚀 快速开始

安装

克隆仓库：

git clone https://huggingface.co/sbapan41/Text2Motion
cd Text2Motion

安装依赖：

# 确保 torch >= 2.4.0
pip install -r requirements.txt

模型下载

模型	下载链接	说明
T2V - 14B	🤗 Huggingface	支持 480P 和 720P 分辨率

使用 🤗 huggingface - cli 下载模型：

pip install "huggingface_hub[cli]"
huggingface-cli download sbapan41/Text2Motion --local-dir ./Text2Motion

运行文本到视频生成

本仓库支持两个文本到视频模型（14B）和两种分辨率（480P 和 720P）。这些模型的参数和配置如下：

任务	480P 分辨率	720P 分辨率	模型
t2v - 14B	✔️	✔️	Text2Motion - 14B

（1）不使用提示扩展

为便于实现，我们从跳过提示扩展步骤的基本推理过程开始。

单 GPU 推理

python generate.py  --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM（内存不足）问题，可以使用 --offload_model True 和 --t5_cpu 选项来减少 GPU 内存使用。例如，在 RTX 4090 GPU 上：

使用 FSDP + xDiT USP 进行多 GPU 推理

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

✨ 主要特性

👍 最优性能：Text2Motion 在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
👍 支持消费级 GPU：T2V - 1.3B 模型仅需 8.19 GB VRAM，几乎与所有消费级 GPU 兼容。它可以在 RTX 4090 上约 4 分钟内生成一个 5 秒的 480P 视频（不使用量化等优化技术），其性能甚至可与一些闭源模型相媲美。
👍 多任务处理：Text2Motion 在文本到视频、图像到视频、视频编辑、文本到图像和视频到音频等任务中表现出色，推动了视频生成领域的发展。
👍 可视化文本生成：Text2Motion 是首个能够同时生成中文和英文文本的视频模型，具有强大的文本生成能力，增强了其实际应用价值。
👍 强大的视频 VAE：Text2Motion - VAE 具有出色的效率和性能，能够对任意长度的 1080P 视频进行编码和解码，同时保留时间信息，是视频和图像生成的理想基础。