许可证:Apache-2.0
语言:
- 英文
- 中文
任务类型:图像转视频
库名称:diffusers
标签:
- 视频
- 视频生成
万2.1
💜 万    |    🖥️ GitHub    |   🤗 Hugging Face   |   🤖 ModelScope   |    📑 论文(即将发布)    |    📑 博客    |   💬 微信群   |    📖 Discord  
万:开放且先进的大规模视频生成模型
在本仓库中,我们推出了万2.1,这是一套全面开放的视频基础模型,旨在突破视频生成的边界。万2.1具有以下核心特点:
- 👍 顶尖性能:万2.1在多项基准测试中持续超越现有开源模型及商业解决方案。
- 👍 支持消费级GPU:T2V-1.3B模型仅需8.19GB显存,兼容几乎所有消费级GPU。在RTX 4090上生成一段5秒480P视频约需4分钟(未使用量化等优化技术),其性能甚至可与部分闭源模型媲美。
- 👍 多任务支持:万2.1在文本转视频、图像转视频、视频编辑、文本转图像及视频转音频任务中表现卓越,推动视频生成领域发展。
- 👍 视觉文本生成:万2.1是首个支持中英文文本生成的视频模型,其强大的文本生成能力显著提升了实际应用价值。
- 👍 高效视频VAE:万-VAE在效率与性能上表现突出,可编码解码任意长度的1080P视频并保留时序信息,是视频与图像生成的理想基础。
本仓库包含我们的I2V-14B模型,该模型能够生成720P高清视频。经过数千轮人工评估,该模型在闭源与开源方案中均表现最优,达到业界领先水平。
视频演示
🔥 最新动态!!
- 2025年2月25日:👋 我们发布了万2.1的推理代码与权重。
📑 待办清单
- 万2.1文本转视频
- [x] 14B与1.3B模型的多GPU推理代码
- [x] 14B与1.3B模型的检查点
- [x] Gradio演示
- [ ] Diffusers集成
- [ ] ComfyUI集成
- 万2.1图像转视频
- [x] 14B模型的多GPU推理代码
- [x] 14B模型的检查点
- [x] Gradio演示
- [ ] Diffusers集成
- [ ] ComfyUI集成
快速开始
安装
克隆仓库:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
安装依赖:
# 确保torch >= 2.4.0
pip install -r requirements.txt
模型下载
💡注:1.3B模型虽能生成720P视频,但由于该分辨率训练数据有限,效果稳定性通常不如480P。建议优先使用480P分辨率。
通过🤗 huggingface-cli下载模型:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-I2V-14B-720P --local-dir ./Wan2.1-I2V-14B-720P
通过🤖 modelscope-cli下载模型:
pip install modelscope
modelscope download Wan-AI/Wan2.1-I2V-14B-720P --local_dir ./Wan2.1-I2V-14B-720P
运行图像转视频生成
与文本转视频类似,图像转视频也分为带提示扩展与不带提示扩展的流程。具体参数及对应设置如下:
任务 |
分辨率 |
模型 |
480P |
720P |
i2v-14B |
❌ |
✔️ |
Wan2.1-I2V-14B-720P |
i2v-14B |
✔️ |
❌ |
Wan2.1-T2V-14B-480P |
(1) 不带提示扩展
python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --prompt "夏日海滩度假风,一只戴墨镜的白猫坐在冲浪板上。这只毛茸茸的猫咪直视镜头,神情放松。模糊的海滩背景中可见清澈海水、远处青山与点缀白云的蓝天。猫咪自然舒展的姿态仿佛正享受海风与温暖阳光。特写镜头突显了猫咪的精致细节与海边的清爽氛围。"
💡对于图像转视频任务,size
参数代表生成视频的区域面积,宽高比遵循原始输入图像。
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "夏日海滩度假风,一只戴墨镜的白猫坐在冲浪板上。这只毛茸茸的猫咪直视镜头,神情放松。模糊的海滩背景中可见清澈海水、远处青山与点缀白云的蓝天。猫咪自然舒展的姿态仿佛正享受海风与温暖阳光。特写镜头突显了猫咪的精致细节与海边的清爽氛围。"
(2) 使用提示扩展
使用本地Qwen/Qwen2.5-VL-7B-Instruct
运行提示扩展:
python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --use_prompt_extend --prompt_extend_model Qwen/Qwen2.5-VL-7B-Instruct --prompt "夏日海滩度假风,一只戴墨镜的白猫坐在冲浪板上。这只毛茸茸的猫咪直视镜头,神情放松。模糊的海滩背景中可见清澈海水、远处青山与点缀白云的蓝天。猫咪自然舒展的姿态仿佛正享受海风与温暖阳光。特写镜头突显了猫咪的精致细节与海边的清爽氛围。"
使用远程dashscope
运行提示扩展:
DASH_API_KEY=您的密钥 python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --use_prompt_extend --prompt_extend_method 'dashscope' --prompt "夏日海滩度假风,一只戴墨镜的白猫坐在冲浪板上。这只毛茸茸的猫咪直视镜头,神情放松。模糊的海滩背景中可见清澈海水、远处青山与点缀白云的蓝天。猫咪自然舒展的姿态仿佛正享受海风与温暖阳光。特写镜头突显了猫咪的精致细节与海边的清爽氛围。"
(3) 运行本地gradio
cd gradio
# 若仅使用480P模型
DASH_API_KEY=您的密钥 python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_480p ./Wan2.1-I2V-14B-480P
# 若仅使用720P模型
DASH_API_KEY=您的密钥 python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_720p ./Wan2.1-I2V-14B-720P
# 若同时使用480P与720P模型
DASH_API_KEY=您的密钥 python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_480p ./Wan2.1-I2V-14B-480P --ckpt_dir_720p ./Wan2.1-I2V-14B-720P
人工评估
我们进行了大量人工评估以检验图像转视频模型的性能,结果如下表所示。数据清晰表明万2.1在闭源与开源模型中均占据优势。
不同GPU上的计算效率
我们在下表中测试了不同万2.1模型在不同GPU上的计算效率,结果以**总耗时(秒)/峰值显存占用(GB)**格式呈现。
本表测试参数设置如下:
(1) 1.3B模型在8GPU运行时,设置--ring_size 8
与--ulysses_size 1
;
(2) 14B模型在单GPU运行时,启用--offload_model True
;
(3) 1.3B模型在单块4090 GPU运行时,设置--offload_model True --t5_cpu
;
(4) 所有测试均未启用提示扩展,即未设置--use_prompt_extend
。
万2.1技术介绍
万2.1基于主流扩散Transformer范式设计,通过一系列创新实现生成能力的显著提升。这些创新包括新颖的时空变分自编码器(VAE)、可扩展训练策略、大规模数据构建及自动化评估指标。这些贡献共同增强了模型的性能与多功能性。
(1) 3D变分自编码器
我们提出了一种专为视频生成设计的3D因果VAE架构——万-VAE。通过结合多种策略,我们改进了时空压缩、降低内存占用并确保时序因果性。万-VAE在性能效率上较其他开源VAE展现显著优势。此外,万-VAE能无损编解码任意长度的1080P视频历史时序信息,特别适合视频生成任务。
(2) 视频扩散DiT
万2.1采用主流扩散Transformer范式中的流匹配框架设计。模型架构使用T5编码器处理多语言文本输入,通过各Transformer块中的交叉注意力将文本嵌入模型结构。我们还采用含线性层与SiLU层的MLP单独处理输入时间嵌入并预测六个调制参数。该MLP在所有Transformer块间共享,每个块学习独立的偏置集。实验表明该方法在同参数规模下带来显著性能提升。
模型 |
维度 |
输入维度 |
输出维度 |
前馈维度 |
频率维度 |
头数 |
层数 |
1.3B |
1536 |
16 |
16 |
8960 |
256 |
12 |
30 |
14B |
5120 |
16 |
16 |
13824 |
256 |
40 |
40 |
数据
我们整理并去重了包含海量图像与视频数据的候选集。在数据整理过程中,我们设计了四步数据清洗流程,聚焦基础维度、视觉质量与运动质量。通过这一鲁棒的数据处理管道,我们能够轻松获取高质量、多样化且大规模的图像与视频训练集。

与SOTA对比
我们将万2.1与领先的开源及闭源模型进行对比评估。使用精心设计的1,035条内部提示集,我们在14个主维度与26个子维度上进行测试,随后根据人工偏好匹配得出的权重对各维度分数加权计算总分。详细结果如下表所示,这些结果表明我们的模型性能优于开源与闭源方案。

引用
如果您认为我们的工作有帮助,请引用我们。
@article{wan2.1,
title = {万:开放且先进的大规模视频生成模型},
author = {万团队},
journal = {},
year = {2025}
}
许可协议
本仓库模型遵循Apache 2.0许可证。我们对生成内容不主张任何权利,允许您自由使用,但需确保使用行为符合该许可证条款。您需对模型使用全权负责,禁止分享任何违反适用法律、伤害个人或群体、传播用于伤害的个人信息、散布错误信息或针对弱势群体的内容。完整限制条款及权利详情请参阅许可证全文。
致谢
我们要感谢SD3、Qwen、umt5-xxl、diffusers及HuggingFace仓库的贡献者,他们的开放研究为本项目奠定了基础。
联系我们
如需给我们的研究或产品团队留言,欢迎加入Discord或微信群!