许可证:Apache-2.0
语言:
任务类型:文本生成视频
库名称:diffusers
标签:
万趣
😊 欢迎体验!


English | 简体中文
目录
模型库
V1.1版本
模型名称 |
存储大小 |
Hugging Face |
魔搭社区 |
描述 |
Wan2.1-Fun-V1.1-1.3B-InP |
19.0 GB |
🤗链接 |
😄链接 |
支持多分辨率训练的1.3B参数文生视频模型,具备首尾帧预测功能 |
Wan2.1-Fun-V1.1-14B-InP |
47.0 GB |
🤗链接 |
😄链接 |
支持多分辨率训练的14B参数文生视频模型,具备首尾帧预测功能 |
Wan2.1-Fun-V1.1-1.3B-Control |
19.0 GB |
🤗链接 |
😄链接 |
1.3B参数视频控制模型,支持Canny/Depth/Pose/MLSD等多条件控制,兼容参考图+控制条件输入,支持运动轨迹控制,可生成512/768/1024分辨率视频(81帧@16fps训练),多语言支持 |
Wan2.1-Fun-V1.1-14B-Control |
47.0 GB |
🤗链接 |
😄链接 |
14B参数视频控制模型,功能同1.3B控制版 |
Wan2.1-Fun-V1.1-1.3B-Control-Camera |
19.0 GB |
🤗链接 |
😄链接 |
1.3B参数镜头控制模型,支持多分辨率视频生成(81帧@16fps训练) |
Wan2.1-Fun-V1.1-14B-Control |
47.0 GB |
🤗链接 |
😄链接 |
14B参数镜头控制模型,功能同1.3B镜头版 |
V1.0版本
(表格内容与V1.1类似,此处省略具体翻译)
作品展示
(视频展示部分保留原HTML结构,仅作文字描述翻译)
文生视频模型作品
- 展示8段由Wan2.1-Fun生成的创意视频,包含自然景观、抽象艺术等多样化内容
控制生成作品
- 参考图+姿态控制:演示通过单张人物参考图结合姿态骨架视频生成连贯动画
- 轨迹控制:展示基于运动路径生成的无人机航拍效果
- 多条件控制:对比Canny边缘/深度图/人体姿态三种控制方式生成效果
镜头控制作品
- 六种运镜效果演示:包含上摇/左移/右移/下摇/左上复合/右上复合镜头
快速开始
1. 云端部署方案
a. 阿里云DSW
- 通过免费资源申请GPU时长
- 在PAI-DSW中5分钟快速启动CogVideoX-Fun
b. ComfyUI集成
c. Docker部署
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g 镜像ID
mkdir -p models/Diffusion_Transformer models/Personalized_Model
2. 本地安装
环境要求
- 操作系统:Windows 10 / Ubuntu 20.04 / CentOS
- GPU:Nvidia 3060(12G)及以上
- 磁盘空间:约60GB可用空间
- 关键组件:
- Python 3.10/3.11
- PyTorch 2.2.0
- CUDA 11.8/12.1
- cuDNN 8+
权重部署
- ComfyUI:放置模型至
ComfyUI/models/Fun_Models/
- 原生Python:放置模型至
models/Diffusion_Transformer/
使用指南
生成功能
显存优化方案
提供三种模式应对不同硬件配置:
- 模型CPU卸载:推理后移出显存
- 量化+卸载:采用FP8量化进一步节省显存
- 逐层卸载:最大显存节省但速度较慢
生成方式
- ComfyUI可视化:通过节点式工作流操作
- Python脚本:
- 文生视频:修改
predict_t2v.py
中的提示词参数
- 图生视频:指定首尾帧图片路径
- 视频控制:输入控制视频(如姿态骨架)
- WebUI交互:运行
app.py
启动本地Gradio界面
参考文献
- CogVideo:清华大学文本生成视频框架
- EasyAnimate:阿里云视频生成工具链
- ComfyUI插件生态:包含KJNodes等扩展模块
许可协议
本项目采用Apache 2.0许可证。