T

Text To Video Ms 1.7b Legacy

由 ali-vilab 开发
基于多阶段文本生成视频扩散模型,输入英文描述文本即可生成符合描述的视频
下载量 133
发布时间 : 3/22/2023
模型介绍
内容详情
替代品

模型简介

本模型由文本特征提取模型、文本特征到视频潜空间扩散模型、视频潜空间到视频视觉空间模型组成,采用UNet3D结构,通过迭代去噪实现视频生成

模型特点

多阶段生成架构
采用文本特征提取、潜空间扩散和视觉空间转换三阶段架构
长视频生成能力
通过内存优化技术可生成最长25秒的视频
高质量视频生成
能够生成符合文本描述的连贯视频内容

模型能力

文本生成视频
英文文本理解
动态场景生成

使用案例

创意内容生成
虚构场景生成
根据想象场景生成视频,如宇航员骑马
生成符合描述的动态视频
角色动作生成
为特定角色生成动作视频,如蜘蛛侠冲浪
生成角色执行指定动作的视频
教育演示
概念可视化
将抽象概念转化为可视化视频