语言:
- "英文"
标签:
- 视频生成
- CreateAI
许可证: apache-2.0
任务标签: 图像转视频
如意-Mini-7B
Hugging Face | Github
CreateAI开发的图像转视频模型。
概述
如意-Mini-7B是一款开源的图像转视频生成模型。从输入图像开始,如意可生成360p至720p分辨率、支持多种宽高比、最长5秒的后续视频帧。通过增强的运动和镜头控制功能,该模型为视频生成提供了更高的灵活性和创造性。我们采用宽松的Apache 2.0许可证发布此模型。
更新日志
2024年12月24日:更新扩散模型,修复生成3:4或4:5比例视频时出现的黑边问题。
2024年12月16日:如意-mini-7B正式发布。
安装指南
通过GitHub安装代码:
git clone https://github.com/IamCreateAI/Ruyi-Models
cd Ruyi-Models
pip install -r requirements.txt
运行方式
我们提供两种运行方式。第一种是直接使用Python代码运行:
python3 predict_i2v.py
或使用我们GitHub仓库中的ComfyUI封装器。
模型架构
如意-Mini-7B是拥有约71亿参数的先进图像转视频模型。其架构基于EasyAnimate V4模型改进,其中的Transformer模块继承自混元DiT。模型包含三大核心组件:
- 因果VAE模块:负责视频压缩与解压缩。将空间分辨率降至1/8,时间分辨率降至1/4,压缩后每个潜在像素用16个浮点数表示。
- 扩散Transformer模块:采用3D全局注意力生成压缩视频数据,具有:
- 空间维度采用归一化RoPE;
- 时间维度采用正弦-余弦位置编码;
- 使用DDPM(去噪扩散概率模型)进行训练。
- 模型还使用CLIP提取输入图像的语义特征来指导视频生成,通过交叉注意力机制将这些特征引入Transformer。
训练数据与方法
训练过程分为四个阶段:
- 第一阶段:256分辨率下,使用约2亿视频片段和3千万图像进行预训练,批量大小4096,迭代35万次直至完全收敛。
- 第二阶段:使用约6千万视频片段进行多尺度分辨率(384-512)微调,批量大小1024,迭代6万次。
- 第三阶段:使用约2千万视频片段和8百万图像进行高质量微调(384-1024分辨率),根据内存动态调整批量大小,迭代1万次。
- 第四阶段:使用约1千万精选高质量视频片段进行图像转视频专项训练,根据内存动态调整批量大小,迭代约1万次。
硬件需求
显存消耗取决于视频分辨率和时长。以下为单张A100显卡的典型测试数据:
视频尺寸 |
360x480x120 |
384x672x120 |
480x640x120 |
630x1120x120 |
720x1280x120 |
显存占用 |
21.5GB |
25.5GB |
27.7GB |
44.9GB |
54.8GB |
生成时间 |
03:10 |
05:29 |
06:49 |
24:18 |
39:02 |
针对RTX4090等24GB显存显卡,我们提供low_gpu_memory_mode
模式,可生成720x1280x120视频但耗时更长。
效果展示
图像转视频效果
镜头控制
 |
|
|
输入 | 左移 | 右移 |
|
|
|
静态 | 上移 | 下移 |
运动幅度控制
已知局限
当前实验性版本存在以下已知限制:文字、手部及密集人脸可能出现扭曲;当模型无法生成后续帧时可能切换场景。我们正在持续优化这些问题,并将随进展更新模型。
引用格式
@misc{createai2024ruyi,
title={如意-Mini-7B},
author={CreateAI团队},
year={2024},
publisher = {GitHub},
journal = {GitHub仓库},
howpublished={\url{https://github.com/IamCreateAI/Ruyi-Models}}
}
联系我们
欢迎加入我们的Discord或扫描二维码添加如意助手加入官方微信群交流!
