Text2Motion开源视频生成模型 - 支持文本、图像生视频，兼容消费级显卡

首页

Text2motion

由 sbapan41 开发

文本转动态是一套开放且先进的视频生成模型，支持文本生成视频、图像生成视频等多种任务，兼容消费级显卡。

文本生成视频英语开源协议:Apache-2.0 #多模态视频生成 #中英双语支持 #消费级显卡适配

下载量 283

发布时间 : 3/21/2025

模型简介

文本转动态是一个大规模视频生成模型，支持多种视频生成任务，包括文本生成视频、图像生成视频、视频编辑等，具备高效性能和广泛的应用场景。

模型特点

顶尖性能

在多个基准测试中持续超越现有开源模型及商业解决方案。

支持消费级显卡

T2V-1.3B模型仅需8.19GB显存，兼容几乎所有消费级显卡。

多任务支持

擅长文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频。

视觉文本生成

首个支持中英文文本生成的视频模型，文本生成能力显著提升实际应用价值。

高效视频VAE

在编码和解码任意长度的1080P视频时，保持时间信息完整性，展现卓越效率与性能。

模型能力

文本生成视频

图像生成视频

视频编辑

文本生成图像

视频生成音频

使用案例

娱乐

生成动画视频

根据文本描述生成拟人化动物的动画视频。

生成5秒480P或720P的高质量视频。

教育

生成教学视频

根据文本描述生成教学视频，辅助教育内容制作。

生成具有中英文字幕的教学视频。

🚀 文本转动态视频模型（Text2Motion）

Text2Motion 是一套全面且开放的视频基础模型套件，突破了视频生成的边界。它具备强大的视频生成能力，能在多个任务中表现出色，为视频生成领域带来了新的突破。

🚀 快速开始

安装

克隆仓库：

git clone https://huggingface.co/sbapan41/Text2Motion
cd Text2Motion

安装依赖：

# 确保 torch >= 2.4.0
pip install -r requirements.txt

模型下载

模型	下载链接	备注
T2V - 14B	🤗 Huggingface	支持 480P 和 720P

使用 🤗 huggingface - cli 下载模型：

pip install "huggingface_hub[cli]"
huggingface-cli download sbapan41/Text2Motion --local-dir ./Text2Motion

运行文本到视频生成

本仓库支持两个文本到视频模型（14B）和两种分辨率（480P 和 720P）。这些模型的参数和配置如下：

任务	480P	720P	模型
t2v - 14B	✔️	✔️	Text2Motion - 14B

（1）不使用提示扩展

为便于实现，我们先从跳过提示扩展步骤的基本推理过程开始。

单 GPU 推理

python generate.py  --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM（内存不足）问题，可以使用 --offload_model True 和 --t5_cpu 选项来减少 GPU 内存使用。例如，在 RTX 4090 GPU 上：

# 此处原文档未给出完整命令

使用 FSDP + xDiT USP 进行多 GPU 推理

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

✨ 主要特性

👍 业界领先性能：Text2Motion 在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
👍 支持消费级 GPU：T2V - 1.3B 模型仅需 8.19 GB VRAM，几乎与所有消费级 GPU 兼容。在 RTX 4090 上，它可以在大约 4 分钟内生成一个 5 秒的 480P 视频（不使用量化等优化技术），其性能甚至可与一些闭源模型相媲美。
👍 多任务处理：Text2Motion 在文本到视频、图像到视频、视频编辑、文本到图像和视频到音频等任务中表现出色，推动了视频生成领域的发展。
👍 可视化文本生成：Text2Motion 是首个能够同时生成中文和英文文本的视频模型，强大的文本生成能力增强了其实际应用价值。
👍 强大的视频 VAE：Text2Motion - VAE 具有卓越的效率和性能，能够对任意长度的 1080P 视频进行编码和解码，同时保留时间信息，是视频和图像生成的理想基础。