pipeline_tag: 文本转视频
license: 其他
license_name: 腾讯混元社区协议
license_link: 许可证
混元视频:大规模视频生成模型训练的系统化框架
本仓库包含我们论文中探索混元视频的PyTorch模型定义、预训练权重及推理/采样代码。更多可视化效果请访问项目主页。
混元视频:大规模视频生成模型训练的系统化框架
最新动态
- 2025年1月13日:📈 发布企鹅视频基准
- 2024年12月18日:🏃♂️ 发布FP8模型权重以节省GPU内存
- 2024年12月17日:🤗 混元视频已集成至Diffusers
- 2024年12月7日:🚀 发布基于xDiT的并行推理代码
- 2024年12月3日:👋 发布混元视频推理代码与模型权重 下载
开源计划
- 混元视频(文生视频模型)
- [x] 推理
- [x] 权重
- [x] 多GPU序列并行推理(更多GPU上更快的推理速度)
- [x] 网页演示(Gradio)
- [x] Diffusers
- [x] FP8量化权重
- [x] 企鹅视频基准
- [x] ComfyUI
- 混元视频(图生视频模型)
目录
摘要
我们推出混元视频——一个性能媲美甚至超越主流闭源模型的新型开源视频基础模型。通过数据治理、图文联合训练及支持大规模训练的基建等关键技术,我们成功训练了参数量超130亿的当前最大开源视频生成模型。
经专业人工评估,混元视频在视觉质量、运动多样性、文本对齐和生成稳定性上均优于Gen-3、Luma 1.6等顶尖闭源模型。通过开源模型与应用代码,我们希望缩小闭源与开源视频基础模型的差距,推动视频生成生态的创新发展。
混元视频整体架构
混元视频在时空压缩的潜空间中进行训练,通过因果3D VAE编码文本提示条件,以高斯噪声为输入生成潜表示,最终经解码器输出视频。
混元视频核心特性
统一图文生成架构
采用"双流转单流"混合设计:前期分模态处理视频与文本token,后期融合进行跨模态交互,实现高质量图文生成统一。
多模态大语言模型文本编码器
相比传统CLIP/T5方案,采用经过视觉指令微调的Decoder-Only结构MLLM,具备更强图文对齐能力与细节描述优势,并引入双向token精炼器增强文本引导。
3D变分自编码器
采用CausalConv3D的3D VAE实现时空压缩(长宽通道压缩比4/8/16),支持原始分辨率视频训练。
提示词改写
基于混元大模型微调的改写模型,提供标准模式(精准理解意图)与大师模式(强化光影构图描述)两种风格,权重已开源。
对比实验
在1,533条文本提示的盲测中,混元视频综合评分41.3%居首,运动质量66.5%表现尤为突出:
模型 | 开源 | 时长 | 文本对齐 | 运动质量 | 视觉质量 | 综合 | 排名 |
混元视频(本工作) | ✔ | 5s | 61.8% | 66.5% | 95.7% | 41.3% | 1 |
国内TopA (API) | ✖ | 5s | 62.6% | 61.7% | 95.6% | 37.7% | 2 |
GEN-3 alpha (网页) | ✖ | 6s | 47.7% | 54.7% | 97.5% | 27.4% | 4 |
系统要求
模型 |
分辨率(高/宽/帧) |
GPU显存峰值 |
混元视频 |
720p1280p129f |
60GB |
混元视频 |
544p960p129f |
45GB |
- 需NVIDIA CUDA显卡
- 最低要求:720p需60GB,544p需45GB
- 推荐配置:80GB显存以获得更佳效果
- 测试系统:Linux
环境依赖与安装
git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo
Linux安装指南
推荐CUDA 12.4或11.8:
# 1. 创建conda环境
conda create -n HunyuanVideo python==3.10.9
# 3. 安装PyTorch
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia
# 4. 安装依赖
pip install -r requirements.txt
# 5. 安装flash-attention加速
pip install flash-attn==2.6.3
# 6. 安装xDiT并行推理支持
pip install xfuser==0.4.0
也可直接使用预构建Docker镜像:
# CUDA 12.4版本
docker pull hunyuanvideo/hunyuanvideo:cuda_12
下载预训练模型
详见ckpts/README.md
单GPU推理
命令行使用
python3 sample_video.py \
--video-size 720 1280 \
--prompt "草地上行走的猫,写实风格" \
--flow-reverse \
--save-path ./results
启动Gradio服务
python3 gradio_server.py --flow-reverse
基于xDiT的多GPU并行推理
8卡并行生成示例:
torchrun --nproc_per_node=8 sample_video.py \
--video-size 1280 720 \
--ulysses-degree 8 \
--prompt "草地上行走的猫"
FP8推理
使用FP8量化权重可节省约10GB显存:
python3 sample_video.py \
--dit-weight ${FP8权重路径} \
--use-fp8 \
--video-size 1280 720
引用格式
@misc{kong2024hunyuanvideo,
title={混元视频:大规模视频生成系统框架},
author={孔维杰等},
year={2024},
archivePrefix={arXiv预印本},
url={https://arxiv.org/abs/2412.03603}
}
致谢
感谢SD3、FLUX、Llama等开源项目,以及腾讯混元多模态团队的支持。