modelscope-damo-text-to-video-synthesis开源模型 - 输入英文文本轻松生成对应视频内容

首页

Modelscope Damo Text To Video Synthesis

由 ali-vilab 开发

多阶段文本生成视频扩散模型，输入英文描述文本即可生成符合文字叙述的视频内容

文本生成视频 #英文文本生成视频 #多阶段扩散模型 #AIGC内容创作

下载量 2,573

发布时间 : 3/19/2023

模型简介

采用扩散模型架构，通过文本特征提取、视频潜空间扩散和视觉空间解码三个核心子网络实现文本到视频的生成功能

模型特点

多阶段生成架构

包含文本特征提取、视频潜空间扩散和视觉解码三个核心模块

迭代去噪生成

采用从高斯噪声视频进行迭代去噪的生成方式

开放数据集训练

基于Webvid等公开数据集训练，支持多样化的视频生成

模型能力

文本到视频生成

英文文本理解

动态场景生成

使用案例

创意内容生成

概念可视化

将抽象概念转化为可视化视频

生成符合文字描述的动态场景

教育内容创作

自动生成教学演示视频

快速制作基础教学素材

原型设计

产品概念展示

根据产品描述生成概念视频

快速可视化产品设计理念

🚀 文本到视频合成模型

本项目是一个文本到视频合成模型，它能够根据输入的英文文本描述生成与之匹配的视频。该模型基于多阶段文本到视频生成扩散模型构建，在视频生成领域有广泛的应用。

🚀 快速开始

模型已在 ModelScope Studio 和 huggingface 上发布，你可以直接体验；也可以参考 Colab 页面自行搭建。为了方便体验模型，用户可以参考阿里云 Notebook 教程快速开发此文本到视频模型。

本演示大约需要 16GB 的 CPU 内存和 16GB 的 GPU 内存。在 ModelScope 框架下，通过调用简单的 Pipeline 即可使用当前模型，输入必须为字典格式，合法键值为 'text'，内容为简短文本。该模型目前仅支持在 GPU 上进行推理。具体代码示例如下：

运行环境（Python 包）

pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning

代码示例（演示代码）

from huggingface_hub import snapshot_download

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib

model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
                   repo_type='model', local_dir=model_dir)

pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

查看结果

上述代码将显示输出视频的保存路径，当前编码格式可使用 VLC 播放器正常播放。输出的 mp4 文件可通过 VLC 媒体播放器查看，其他一些媒体播放器可能无法正常查看。

✨ 主要特性

本模型基于多阶段文本到视频生成扩散模型，由文本特征提取、文本特征到视频潜空间扩散模型以及视频潜空间到视频视觉空间三个子网络组成。
模型整体参数约 17 亿，支持英文输入。
扩散模型采用 Unet3D 结构，通过从纯高斯噪声视频的迭代去噪过程实现视频生成功能。
具有广泛的应用场景，能够根据任意英文文本描述进行推理并生成视频。

📦 安装指南

运行环境（Python 包）

pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning

💻 使用示例

基础用法

from huggingface_hub import snapshot_download

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib

model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
                   repo_type='model', local_dir=model_dir)

pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

📚 详细文档

模型描述

文本到视频生成扩散模型由三个子网络组成：文本特征提取、文本特征到视频潜空间扩散模型以及视频潜空间到视频视觉空间。模型整体参数约 17 亿，支持英文输入。扩散模型采用 Unet3D 结构，通过从纯高斯噪声视频的迭代去噪过程实现视频生成功能。

本模型仅用于研究目的，请查看模型局限性和偏差以及滥用、恶意使用和过度使用部分。

模型的预期使用方式和适用场景 本模型具有广泛的应用场景，能够根据任意英文文本描述进行推理并生成视频。

模型局限性和偏差

模型基于 Webvid 等公共数据集进行训练，生成结果可能与训练数据的分布存在偏差。
本模型无法实现完美的影视级质量生成。
模型无法生成清晰的文本。
模型主要使用英文语料进行训练，目前不支持其他语言。
该模型在复杂构图生成任务上的性能有待提高。

滥用、恶意使用和过度使用

模型并非用于真实地呈现人物或事件，因此使用其生成此类内容超出了模型的能力范围。
禁止生成贬低或伤害他人、其环境、文化、宗教等的内容。
禁止用于色情、暴力和血腥内容的生成。
禁止用于错误和虚假信息的生成。

训练数据

训练数据包括 LAION5B、ImageNet、Webvid 等公共数据集。在预训练后进行图像和视频过滤，如美学评分、水印评分和去重等操作。

引用

    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }