M

Modelscope Damo Text To Video Synthesis

由 ali-vilab 开发
多阶段文本生成视频扩散模型,输入英文描述文本即可生成符合文字叙述的视频内容
下载量 2,573
发布时间 : 3/19/2023
模型介绍
内容详情
替代品

模型简介

采用扩散模型架构,通过文本特征提取、视频潜空间扩散和视觉空间解码三个核心子网络实现文本到视频的生成功能

模型特点

多阶段生成架构
包含文本特征提取、视频潜空间扩散和视觉解码三个核心模块
迭代去噪生成
采用从高斯噪声视频进行迭代去噪的生成方式
开放数据集训练
基于Webvid等公开数据集训练,支持多样化的视频生成

模型能力

文本到视频生成
英文文本理解
动态场景生成

使用案例

创意内容生成
概念可视化
将抽象概念转化为可视化视频
生成符合文字描述的动态场景
教育内容创作
自动生成教学演示视频
快速制作基础教学素材
原型设计
产品概念展示
根据产品描述生成概念视频
快速可视化产品设计理念