许可证:Apache-2.0
语言:
标签:
流水线标签:图像到视频
Wan2.1
💜 Wan    |    🖥️ GitHub    |   🤗 Hugging Face   |   🤖 ModelScope   |    📑 技术报告    |    📑 博客    |   💬 微信群   |    📖 Discord  
Wan:开放且先进的大规模视频生成模型
在本仓库中,我们推出了Wan2.1,这是一套全面且开放的视频基础模型,旨在突破视频生成的边界。Wan2.1具有以下关键特性:
- 👍 SOTA性能:Wan2.1在多个基准测试中持续超越现有开源模型及最先进的商业解决方案。
- 👍 支持消费级GPU:T2V-1.3B模型仅需8.19GB显存,兼容几乎所有消费级GPU。在RTX 4090上生成一段5秒480P视频约需4分钟(未使用量化等优化技术),其性能甚至可与部分闭源模型媲美。
- 👍 多任务支持:Wan2.1在文本到视频、图像到视频、视频编辑、文本到图像及视频到音频等任务中表现卓越,推动视频生成领域发展。
- 👍 视觉文本生成:Wan2.1是首个支持中英文文本生成的视频模型,具备强大的文本生成能力,增强了实际应用价值。
- 👍 强大的视频VAE:Wan-VAE在效率与性能上表现突出,可编码解码任意长度的1080P视频并保留时序信息,是视频与图像生成的理想基础。
视频演示
🔥 最新动态!!
- 2025年5月14日:👋 我们发布Wan2.1VACE,一款全能视频创作与编辑模型,同步开放推理代码、权重及技术报告!
- 2025年4月17日:👋 推出Wan2.1FLF2V的推理代码与权重!
- 2025年3月21日:👋 我们激动地发布Wan2.1技术报告,欢迎讨论与反馈!
- 2025年3月3日:👋 Wan2.1的T2V与I2V已集成至Diffusers(T2V | I2V),欢迎试用!
- 2025年2月27日:👋 Wan2.1已集成至ComfyUI,尽情体验!
- 2025年2月25日:👋 我们开放了Wan2.1的推理代码与权重。
社区作品
若您的作品基于Wan2.1改进并希望更多人看到,请告知我们。
📑 待办清单
- Wan2.1文本到视频
- [x] 14B与1.3B模型的多GPU推理代码
- [x] 14B与1.3B模型的检查点
- [x] Gradio演示
- [x] ComfyUI集成
- [x] Diffusers集成
- [ ] Diffusers + 多GPU推理
- Wan2.1图像到视频
- [x] 14B模型的多GPU推理代码
- [x] 14B模型的检查点
- [x] Gradio演示
- [x] ComfyUI集成
- [x] Diffusers集成
- [ ] Diffusers + 多GPU推理
- Wan2.1首尾帧到视频
- [x] 14B模型的多GPU推理代码
- [x] 14B模型的检查点
- [x] Gradio演示
- [ ] ComfyUI集成
- [ ] Diffusers集成
- [ ] Diffusers + 多GPU推理
- Wan2.1 VACE
- [x] 14B与1.3B模型的多GPU推理代码
- [x] 14B与1.3B模型的检查点
- [x] Gradio演示
- [x] ComfyUI集成
- [ ] Diffusers集成
- [ ] Diffusers + 多GPU推理
快速开始
安装
克隆仓库:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
安装依赖:
pip install -r requirements.txt
模型下载
💡注意:
- 1.3B模型理论上支持720P分辨率生成,但由于该分辨率训练数据有限,效果稳定性通常不如480P。建议优先使用480P分辨率。
- 首尾帧到视频生成任务主要基于中文文本-视频对训练,建议使用中文提示词以获得更佳效果。
通过huggingface-cli下载模型:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
通过modelscope-cli下载模型:
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B
运行文本到视频生成
本仓库支持两种文本到视频模型(1.3B与14B)及两种分辨率(480P与720P)。各模型参数配置如下:
任务 |
分辨率 |
模型 |
480P |
720P |
t2v-14B |
✔️ |
✔️ |
Wan2.1-T2V-14B |
t2v-1.3B |
✔️ |
❌ |
Wan2.1-T2V-1.3B |
(1) 不使用提示词扩展
为简化实现,我们首先跳过提示词扩展步骤,展示基础推理流程。
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和鲜艳的拳套,在聚光灯下的舞台上激烈搏斗。"
若遇显存不足(OOM),可使用--offload_model True
与--t5_cpu
选项降低显存占用。例如在RTX 4090上:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "两只拟人化的猫穿着舒适的拳击装备和鲜艳的拳套,在聚光灯下的舞台上激烈搏斗。"
💡提示:使用T2V-1.3B
模型时,建议设置--sample_guide_scale 6
。--sample_shift
参数可根据性能在8至12间调整。
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "两只拟人化的猫穿着舒适的拳击装备和鲜艳的拳套,在聚光灯下的舞台上激烈搏斗。"
(2) 使用提示词扩展
扩展提示词能有效丰富生成视频细节,进一步提升质量。我们推荐启用提示词扩展,提供以下两种扩展方式:
- 使用Dashscope API扩展。
- 提前申请
dashscope.api_key
(英文 | 中文)。
- 配置环境变量
DASH_API_KEY
指定API密钥。国际站用户还需设置DASH_API_URL
为'https://dashscope-intl.aliyuncs.com/api/v1'。详见dashscope文档。
- 文本到视频任务使用
qwen-plus
模型,图像到视频使用qwen-vl-max
。
- 可通过
--prompt_extend_model
修改扩展模型。例如:
DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和鲜艳的拳套,在聚光灯下的舞台上激烈搏斗" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'
-
使用本地模型扩展。
- 默认使用HuggingFace上的Qwen模型。用户可根据显存选择Qwen或其他模型。
- 文本到视频任务可使用
Qwen/Qwen2.5-14B-Instruct
、Qwen/Qwen2.5-7B-Instruct
及`Qwen/Qwen2.5-