许可证:Apache-2.0
支持语言:
- 英文
- 中文
任务类型:文本生成视频
库名称:diffusers
标签:
- 视频
- 视频生成
万2.1
💜 万    |    🖥️ GitHub    |   🤗 Hugging Face   |   🤖 ModelScope   |    📑 论文(即将发布)    |    📑 博客    |   💬 微信群   |    📖 Discord  
万:开放且先进的大规模视频生成模型
在本仓库中,我们推出了万2.1,这是一套全面开放的视频基础模型,旨在突破视频生成的边界。万2.1具有以下核心特点:
- 👍 顶尖性能:万2.1在多项基准测试中均超越现有开源模型及商业解决方案。
- 👍 支持消费级GPU:T2V-1.3B模型仅需8.19GB显存,兼容几乎所有消费级显卡。在RTX 4090上生成5秒480P视频约需4分钟(未使用量化等优化技术),性能媲美部分闭源模型。
- 👍 多任务支持:涵盖文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频,推动视频生成领域发展。
- 👍 视觉文本生成:首个支持中英双语文本生成的视频模型,文本生成能力强大,提升实用价值。
- 👍 高效视频VAE:万-VAE在编码解码任意长度1080P视频时保持时序信息,为视频与图像生成提供理想基础。
本仓库提供T2V-1.3B模型,作为兼容消费级GPU的通用视频生成方案。我们希望万2.1能成为创意团队易用的工具,并为算力有限的学术团队提供高质量基础模型,加速视频创作社区与技术发展。
视频演示
🔥 最新动态!
- 2025年2月25日:👋 发布万2.1推理代码与权重。
📑 待办清单
- 万2.1文本生成视频
- [x] 14B与1.3B模型多GPU推理代码
- [x] 14B与1.3B模型权重
- [x] Gradio演示
- [ ] Diffusers集成
- [ ] ComfyUI集成
- 万2.1图像生成视频
- [x] 14B模型多GPU推理代码
- [x] 14B模型权重
- [x] Gradio演示
- [ ] Diffusers集成
- [ ] ComfyUI集成
快速开始
安装
克隆仓库:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
安装依赖:
# 确保torch >= 2.4.0
pip install -r requirements.txt
模型下载
💡提示:1.3B模型可生成720P视频,但因该分辨率训练有限,效果稳定性不如480P,推荐优先使用480P。
通过🤗 huggingface-cli下载模型:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B
通过🤖 modelscope-cli下载模型:
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B
运行文本生成视频
本仓库支持两种文本生成视频模型(1.3B与14B)及两种分辨率(480P与720P),参数配置如下:
任务 |
分辨率 |
模型 |
480P |
720P |
t2v-14B |
✔️ |
✔️ |
Wan2.1-T2V-14B |
t2v-1.3B |
✔️ |
❌ |
Wan2.1-T2V-1.3B |
(1) 基础推理(无提示词扩展)
为简化流程,我们首先提供跳过提示词扩展的基础推理版本。
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "两只拟人化猫咪穿着舒适拳击装备,戴着鲜艳手套,在聚光灯舞台上激烈搏斗。"
若遇显存不足,可使用--offload_model True
与--t5_cpu
降低显存占用。例如在RTX 4090上:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "两只拟人化猫咪穿着舒适拳击装备,戴着鲜艳手套,在聚光灯舞台上激烈搏斗。"
💡提示:使用T2V-1.3B
时推荐--sample_guide_scale 6
,--sample_shift
参数可在8至12间调整。
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "两只拟人化猫咪穿着舒适拳击装备,戴着鲜艳手套,在聚光灯舞台上激烈搏斗。"
(2) 使用提示词扩展
扩展提示词可丰富生成视频细节,提升质量。我们提供两种扩展方式:
- 使用Dashscope API扩展
- 提前申请
dashscope.api_key
(英文 | 中文)。
- 设置环境变量
DASH_API_KEY
。国际站用户需额外设置DASH_API_URL
为https://dashscope-intl.aliyuncs.com/api/v1
,详见dashscope文档。
- 文本生成视频任务使用
qwen-plus
,图像生成视频使用qwen-vl-max
。
- 可通过
--prompt_extend_model
修改扩展模型。例如:
DASH_API_KEY=您的密钥 python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "两只拟人化猫咪穿着舒适拳击装备,戴着鲜艳手套,在聚光灯舞台上激烈搏斗" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'
- 使用本地模型扩展
- 默认使用HuggingFace上的Qwen模型,根据显存选择不同规模模型。
- 文本生成视频任务可用
Qwen/Qwen2.5-14B-Instruct
、Qwen/Qwen2.5-7B-Instruct
等。
- 图像生成视频任务可用
Qwen/Qwen2.5-VL-7B-Instruct
等。
- 更大模型效果更佳但需更多显存。
- 通过
--prompt_extend_model
指定本地路径或Hugging Face模型。例如:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "两只拟人化猫咪穿着舒适拳击装备,戴着鲜艳手套,在聚光灯舞台上激烈搏斗" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'
(3) 运行本地Gradio
cd gradio
# 使用Dashscope API扩展提示词
DASH_API_KEY=您的密钥 python t2v_1.3B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-1.3B
# 使用本地模型扩展提示词
python t2v_1.3B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-1.3B
性能评估
我们使用万-Bench框架评估T2V-1.3B模型,结果显示1.3B小模型在综合指标上超越更大规模开源模型,验证了万X2.1架构与数据管道的有效性。
不同GPU计算效率
下表测试了不同万2.1模型在各GPU上的效率,格式为总耗时(s)/峰值显存(GB)。
测试参数说明:
(1) 1.3B模型8卡测试设--ring_size 8
与--ulysses_size 1
;
(2) 14B模型单卡测试用--offload_model True
;
(3) 1.3B模型单4090测试设--offload_model True --t5_cpu
;
(4) 所有测试未启用提示词扩展(--use_prompt_extend
未开启)。
万2.1技术介绍
万2.1基于主流扩散Transformer范式,通过创新时空变分自编码器(VAE)、可扩展训练策略、大规模数据构建及自动化评估指标,显著提升模型性能与多功能性。
(1) 3D变分自编码器
提出新型3D因果VAE架构万-VAE,优化时空压缩、降低内存占用并确保时序因果性。相比开源VAE,万-VAE在性能效率上优势显著,且能无损编解码任意长度1080P视频,特别适合视频生成任务。
(2) 视频扩散DiT
万2.1采用Flow Matching框架,使用T5编码器处理多语言文本输入,通过交叉注意力嵌入文本至模型结构。MLP处理时间嵌入并预测六组调制参数,共享于所有Transformer块,每块学习独立偏置。实验表明该方法在同参数规模下性能显著提升。
模型 |
维度 |
输入维度 |
输出维度 |
前馈维度 |
频率维度 |
头数 |
层数 |
1.3B |
1536 |
16 |
16 |
8960 |
256 |
12 |
30 |
14B |
5120 |
16 |
16 |
13824 |
256 |
40 |
40 |
数据
通过四步清洗流程构建高质量、多样化的大规模图像视频训练集,聚焦基础维度、视觉质量与运动质量。

与SOTA对比
使用1,035条内部提示词测试14大维度26子维度,加权计算总分。结果显示模型性能优于开源与闭源方案。

引用
若工作对您有帮助,请引用我们。
@article{wan2.1,
title = {万:开放且先进的大规模视频生成模型},
author = {万团队},
journal = {},
year = {2025}
}
许可协议
本仓库模型遵循Apache 2.0许可证。您生成的内容权利归您所有,但需确保使用符合许可证条款。使用者需对模型应用全权负责,禁止分享违法、有害、侵犯隐私、误导性或针对弱势群体的内容。完整限制与权利详见许可证。
致谢
感谢SD3、Qwen、umt5-xxl、diffusers及HuggingFace仓库的贡献者。
联系我们
欢迎加入Discord或微信群交流!