H

Hunyuanvideogp HFIE

由 jbilcke-hf 开发
混元视频是腾讯开源的大规模视频生成模型,采用创新的统一架构实现高质量文本到视频生成
下载量 24
发布时间 : 12/11/2024
模型介绍
内容详情
替代品

模型简介

混元视频是一个性能媲美主流闭源模型的新型开源视频基础模型,整合了数据筛选、图像-视频联合训练等关键创新,支持高质量视频生成

模型特点

统一的图像与视频生成架构
采用'双流转单流'混合设计,有效捕捉视觉与语义信息的复杂交互
多模态大语言模型文本编码器
使用视觉指令微调的多模态大语言模型作为文本编码器,具备更强的细节描述与复杂推理能力
3D变分自编码器
采用因果卷积3D的变分自编码器实现高效视频空间压缩
提示词改写
提供标准模式与大师模式两种提示词改写方式,优化生成效果

模型能力

文本到视频生成
高质量视频合成
复杂场景理解
多风格视频生成

使用案例

创意内容制作
短视频创作
根据文本描述自动生成创意短视频
可生成5秒高质量视频
影视制作辅助
概念视频预览
快速生成影视概念预览视频
支持720p高清视频生成