许可证:Apache-2.0
支持语言:
- 英文
- 中文
任务类型:文本生成视频
标签:
- 视频生成
库名称:diffusers
推理参数:
num_inference_steps: 10
万2.1
💜 万    |    🖥️ GitHub    |   🤗 Hugging Face   |   🤖 ModelScope   |    📑 论文(即将发布)    |    📑 博客    |   💬 微信群   |    📖 Discord  
万:开放且先进的大规模视频生成模型
在本仓库中,我们推出了万2.1,这是一套全面开放的视频基础模型,突破了视频生成的边界。万2.1具有以下核心特点:
- 👍 顶尖性能:万2.1在多个基准测试中均超越现有开源模型和商业解决方案。
- 👍 支持消费级GPU:T2V-1.3B模型仅需8.19GB显存,兼容几乎所有消费级GPU。在RTX 4090上生成5秒480P视频约需4分钟(未使用量化等优化技术),性能甚至媲美部分闭源模型。
- 👍 多任务支持:万2.1擅长文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频,推动视频生成领域发展。
- 👍 视觉文本生成:万2.1是首个支持中英文文本生成的视频模型,文本生成能力强大,增强了实际应用价值。
- 👍 高效视频VAE:万-VAE在编码和解码任意长度的1080P视频时表现出色,保留时序信息,是视频和图像生成的理想基础。
本仓库展示了我们的T2V-14B模型,其在开源和闭源模型中均树立了新的性能标杆,能够生成具有显著动态效果的高质量视频。它也是唯一支持中英文文本生成并兼容480P和720P分辨率的视频模型。
视频演示
🔥 最新动态!
- 2025年2月22日:👋 我们发布了万2.1的推理代码和权重。
📑 待办事项
- 万2.1文本生成视频
- [x] 14B和1.3B模型的多GPU推理代码
- [x] 14B和1.3B模型的检查点
- [x] Gradio演示
- [ ] Diffusers集成
- [ ] ComfyUI集成
- 万2.1图像生成视频
- [x] 14B模型的多GPU推理代码
- [x] 14B模型的检查点
- [x] Gradio演示
- [ ] Diffusers集成
- [ ] ComfyUI集成
快速开始
安装
克隆仓库:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
安装依赖:
# 确保torch >= 2.4.0
pip install -r requirements.txt
模型下载
💡注:1.3B模型支持720P分辨率视频生成,但由于训练数据有限,效果不如480P稳定,建议优先使用480P。
通过🤗 huggingface-cli下载模型:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
通过🤖 modelscope-cli下载模型:
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B
运行文本生成视频
本仓库支持两种文本生成视频模型(1.3B和14B)和两种分辨率(480P和720P),参数配置如下:
任务 |
分辨率 |
模型 |
480P |
720P |
t2v-14B |
✔️ |
✔️ |
Wan2.1-T2V-14B |
t2v-1.3B |
✔️ |
❌ |
Wan2.1-T2V-1.3B |
(1) 不使用提示扩展
为简化实现,我们首先跳过提示扩展步骤,展示基础推理流程。
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和鲜艳的拳套,在聚光灯下的舞台上激烈搏斗。"
若遇到显存不足(OOM)问题,可使用--offload_model True
和--t5_cpu
选项降低显存占用。例如,在RTX 4090上:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "两只拟人化的猫穿着舒适的拳击装备和鲜艳的拳套,在聚光灯下的舞台上激烈搏斗。"
💡注:使用T2V-1.3B
模型时,建议设置--sample_guide_scale 6
,--sample_shift
参数可在8至12间调整。
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "两只拟人化的猫穿着舒适的拳击装备和鲜艳的拳套,在聚光灯下的舞台上激烈搏斗。"
(2) 使用提示扩展
提示扩展能有效丰富生成视频的细节,提升质量。我们提供以下两种扩展方法:
- 使用Dashscope API扩展。
- 提前申请
dashscope.api_key
(英文 | 中文)。
- 设置环境变量
DASH_API_KEY
指定API密钥。国际站用户还需设置DASH_API_URL
为'https://dashscope-intl.aliyuncs.com/api/v1'。详情参考dashscope文档。
- 文本生成视频任务使用
qwen-plus
模型,图像生成视频任务使用qwen-vl-max
。
- 可通过
--prompt_extend_model
参数修改扩展模型。例如:
DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和鲜艳的拳套,在聚光灯下的舞台上激烈搏斗" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'
- 使用本地模型扩展。
- 默认使用HuggingFace上的Qwen模型,用户可根据显存选择。
- 文本生成视频任务可使用
Qwen/Qwen2.5-14B-Instruct
、Qwen/Qwen2.5-7B-Instruct
和Qwen/Qwen2.5-3B-Instruct
。
- 图像生成视频任务可使用
Qwen/Qwen2.5-VL-7B-Instruct
和Qwen/Qwen2.5-VL-3B-Instruct
。
- 模型越大效果越好,但显存需求更高。
- 可通过
--prompt_extend_model
参数指定本地模型或Hugging Face模型。例如:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和鲜艳的拳套,在聚光灯下的舞台上激烈搏斗" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'
(3) 运行本地Gradio
cd gradio
# 使用Dashscope API扩展提示
DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B
# 使用本地模型扩展提示
python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B
人工评估
通过人工评估,提示扩展后的生成结果优于闭源和开源模型。
不同GPU上的计算效率
下表测试了不同万2.1模型在不同GPU上的计算效率,格式为总时间(秒)/峰值显存(GB)。
测试参数设置:
(1) 1.3B模型在8GPU上设置--ring_size 8
和--ulysses_size 1
;
(2) 14B模型在1GPU上使用--offload_model True
;
(3) 1.3B模型在单4090上设置--offload_model True --t5_cpu
;
(4) 所有测试均未启用提示扩展(--use_prompt_extend
未开启)。
社区贡献
万2.1介绍
万2.1基于主流的扩散Transformer范式设计,通过一系列创新显著提升了生成能力,包括新颖的时空变分自编码器(VAE)、可扩展的训练策略、大规模数据构建和自动化评估指标。这些贡献共同提升了模型的性能和多功能性。
(1) 3D变分自编码器
我们提出了专为视频生成设计的万-VAE架构,结合多种策略改进了时空压缩,降低了内存使用并确保时序因果性。万-VAE在性能和效率上显著优于其他开源VAE,且能无损编码和解码任意长度的1080P视频,非常适合视频生成任务。
(2) 视频扩散DiT
万2.1采用主流扩散Transformer范式中的Flow Matching框架设计。模型架构使用T5编码器处理多语言文本输入,通过交叉注意力将文本嵌入到模型结构中。此外,我们使用带线性层和SiLU层的MLP处理时间嵌入并预测六个调制参数,该MLP在所有Transformer块中共享,每个块学习不同的偏置。实验表明,这种方法在相同参数规模下显著提升了性能。
模型 |
维度 |
输入维度 |
输出维度 |
前馈维度 |
频率维度 |
头数 |
层数 |
1.3B |
1536 |
16 |
16 |
8960 |
256 |
12 |
30 |
14B |
5120 |
16 |
16 |
13824 |
256 |
40 |
40 |
数据
我们整理并去重了大量图像和视频数据候选集。在数据整理过程中,设计了四步清洗流程,关注基础维度、视觉质量和运动质量。通过强大的数据处理管道,我们能够轻松获得高质量、多样化和大规模的图像和视频训练集。

与SOTA对比
我们比较了万2.1与领先的开源和闭源模型。使用精心设计的1,035条内部提示,测试了14个主要维度和26个子维度,通过人类偏好加权计算总分。详细结果显示,我们的模型性能优于开源和闭源模型。

引用
如果我们的工作对您有帮助,请引用我们。
@article{wan2.1,
title = {万:开放且先进的大规模视频生成模型},
author = {万团队},
journal = {},
year = {2025}
}
许可协议
本仓库中的模型遵循Apache 2.0许可证。我们对生成内容不主张任何权利,您可自由使用,但需确保符合许可证条款。您需对模型使用全权负责,不得分享违反法律、伤害个人或群体、传播有害信息或针对