V

Vid

由 AVIIAX 开发
基于扩散模型的多阶段文本到视频生成系统,可根据英文描述生成相应视频内容
下载量 479
发布时间 : 11/2/2023
模型介绍
内容详情
替代品

模型简介

该模型通过文本特征提取、扩散模型和视频空间转换三个子网络实现文本到视频的生成,参数量约17亿

模型特点

多阶段生成架构
包含文本特征提取、视频隐空间扩散和视觉空间转换三个子网络
长视频生成支持
通过注意力机制和VAE切片技术可生成最长25秒的视频
显存优化
支持模型CPU卸载和VAE切片,可在16GB GPU上运行

模型能力

英文文本到视频生成
动态场景合成
多对象组合生成

使用案例

创意内容生成
虚构场景生成
生成现实中不存在的虚构场景视频,如宇航员骑马
可生成流畅的虚构动作视频
角色动作模拟
为特定角色生成指定动作视频,如蜘蛛侠冲浪
能保持角色特征的同时完成指定动作
概念可视化
抽象概念可视化
将抽象文本描述转化为直观视频
生成符合文本描述的视频内容