H

Hunyuanvideo

由 tencent 开发
腾讯开源的大规模视频生成模型,支持文本到视频生成,性能媲美主流闭源模型。
下载量 2,285
发布时间 : 12/1/2024
模型介绍
内容详情
替代品

模型简介

混元视频是一个性能媲美甚至超越主流闭源模型的新型开源视频基础模型,通过数据治理、图文联合训练及支持大规模训练的基建等关键技术,成功训练了参数量超130亿的当前最大开源视频生成模型。

模型特点

统一图文生成架构
采用'双流转单流'混合设计:前期分模态处理视频与文本token,后期融合进行跨模态交互,实现高质量图文生成统一。
多模态大语言模型文本编码器
采用经过视觉指令微调的Decoder-Only结构MLLM,具备更强图文对齐能力与细节描述优势,并引入双向token精炼器增强文本引导。
3D变分自编码器
采用CausalConv3D的3D VAE实现时空压缩(长宽通道压缩比4/8/16),支持原始分辨率视频训练。
提示词改写
基于混元大模型微调的改写模型,提供标准模式(精准理解意图)与大师模式(强化光影构图描述)两种风格。

模型能力

文本到视频生成
高分辨率视频生成(最高1280x720)
多风格视频生成
长视频生成(最长5秒)

使用案例

创意内容生成
影视预告片制作
根据剧本描述自动生成影视预告片片段
生成高质量、符合文本描述的动态视频内容
广告创意生成
根据产品描述生成广告视频
快速生成多样化的广告创意视频
教育
教学视频生成
根据教学内容自动生成动画演示
生动展示复杂概念和过程