T

Text To Video Ms 1.7b

由 ali-vilab 开发
基于多阶段文本到视频生成扩散模型,输入英文描述文本后返回符合文本描述的视频
下载量 14.01k
发布时间 : 3/22/2023
模型介绍
内容详情
替代品

模型简介

文本生成视频扩散模型由三个子网络组成:文本特征提取模型、文本特征到视频隐空间的扩散模型、视频隐空间到视频视觉空间的模型。整体模型参数量约17亿,目前仅支持英文输入。

模型特点

多阶段生成架构
由文本特征提取、文本特征到视频隐空间扩散、视频隐空间到视觉空间三个子网络组成
长视频生成能力
通过优化技术可在16GB GPU显存内生成最长25秒的视频
显存优化技术
支持注意力机制和VAE切片技术,配合Torch 2.0实现显存高效利用

模型能力

文本到视频生成
开放域视频创作
多对象场景合成

使用案例

创意内容生成
虚构场景创作
生成虚构人物在非现实场景中的视频,如宇航员骑马
可生成流畅的虚构场景动画
概念可视化
将抽象概念或文字描述转化为可视化视频
快速实现创意概念的可视化表达
教育娱乐
教育内容制作
为教育内容创建配套视频素材
简化教育视频制作流程