license: cc-by-nc-4.0
pipeline_tag: text-to-video
原项目仓库位于此处。
我们正在招聘!(工作地点:中国北京/杭州)
如果你渴望迎接激动人心的挑战,并希望参与AIGC与大模型预训练领域的前沿技术工作,这里正是你的理想之选。我们正在寻找具备才华、积极进取且富有创造力的伙伴加入团队。有意者请将简历发送至以下邮箱。
联系邮箱:yingya.zyy@alibaba-inc.com
本模型采用多阶段文本生成视频扩散模型架构,输入描述文本即可生成符合文字叙述的视频内容。目前仅支持英文输入。
模型描述
文本生成视频扩散模型包含三个核心子网络:文本特征提取模块、文本特征到视频潜空间的扩散模型、视频潜空间到视觉空间的解码器。整体参数量约17亿,仅支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频进行迭代去噪的过程实现视频生成功能。
本模型仅供研究用途,请仔细阅读模型局限性与使用禁忌章节。
预期使用场景与适用范围
本模型具有广泛的应用潜力,可根据任意英文文本描述进行推理并生成相应视频内容。
使用方式
模型已上线ModelScope Studio和huggingface平台,可直接体验;也可参考Colab教程自行搭建。为便于快速开发,用户可参照阿里云Notebook教程进行部署。
本演示需约16GB CPU内存和16GB GPU内存。在ModelScope框架下,通过调用简易Pipeline即可使用当前模型,输入需为字典格式,合法键值为'text',内容为简短文本。当前模型仅支持GPU推理,具体代码如下:
运行环境(Python包)
pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning
代码示例
from huggingface_hub import snapshot_download
from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib
model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
repo_type='model', local_dir=model_dir)
pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
'text': '一只熊猫正在岩石上吃竹子。',
}
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('视频输出路径:', output_video_path)
查看结果
上述代码将显示输出视频的保存路径,当前编码格式可通过VLC播放器正常播放。生成的mp4文件建议使用VLC media player查看,部分其他播放器可能出现兼容性问题。
模型局限性
- 模型基于Webvid等公开数据集训练,生成结果可能带有训练数据分布相关的偏差
- 无法实现影视级画质生成
- 不支持生成清晰可辨的文字内容
- 主要基于英文语料训练,暂不支持其他语言
- 在复杂组合生成任务上表现有待提升
使用禁忌
- 禁止生成真实人物/事件的仿真内容
- 禁止生成贬损或危害任何群体/文化/宗教的内容
- 禁止生成色情/暴力/血腥内容
- 禁止生成错误/虚假信息
训练数据
训练数据包含LAION5B、ImageNet、Webvid等公开数据集,经过美学评分、水印评分、去重等预处理筛选。
文献引用
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}