text-to-video-ms-1.7b开源模型 - 输入英文文本，免费生成符合描述的视频

首页

Text To Video Ms 1.7b

由 ali-vilab 开发

基于多阶段文本到视频生成扩散模型，输入英文描述文本后返回符合文本描述的视频

文本生成视频 #多阶段扩散模型 #英文文本生成视频 #UNet3D架构

下载量 14.01k

发布时间 : 3/22/2023

模型简介

文本生成视频扩散模型由三个子网络组成：文本特征提取模型、文本特征到视频隐空间的扩散模型、视频隐空间到视频视觉空间的模型。整体模型参数量约17亿，目前仅支持英文输入。

模型特点

多阶段生成架构

由文本特征提取、文本特征到视频隐空间扩散、视频隐空间到视觉空间三个子网络组成

长视频生成能力

通过优化技术可在16GB GPU显存内生成最长25秒的视频

显存优化技术

支持注意力机制和VAE切片技术，配合Torch 2.0实现显存高效利用

模型能力

文本到视频生成

开放域视频创作

多对象场景合成

使用案例

创意内容生成

虚构场景创作

生成虚构人物在非现实场景中的视频，如宇航员骑马

可生成流畅的虚构场景动画

概念可视化

将抽象概念或文字描述转化为可视化视频

快速实现创意概念的可视化表达

教育娱乐

教育内容制作

为教育内容创建配套视频素材

简化教育视频制作流程

🚀 开放域文本到视频合成模型

本模型基于多阶段文本到视频生成扩散模型，输入描述文本，即可返回与文本描述相匹配的视频。目前仅支持英文输入。

我们正在招聘！（工作地点：中国北京/杭州）

如果你正在寻找富有挑战性的工作，渴望在AIGC和大规模预训练领域探索前沿技术，那么我们就是你的理想之选。我们诚邀才华横溢、积极进取且富有创造力的你加入我们的团队。如果您感兴趣，请将简历发送给我们。

邮箱：yingya.zyy@alibaba-inc.com

🚀 快速开始

安装所需库

$ pip install diffusers transformers accelerate torch

生成视频

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

长视频生成

你可以通过启用注意力和VAE切片并使用Torch 2.0来优化内存使用。这样，在GPU显存小于16GB的情况下，你也可以生成长达25秒的视频。

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# 加载管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# 优化GPU内存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# 生成视频
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# 转换为视频
video_path = export_to_video(video_frames)

查看结果

上述代码将显示输出视频的保存路径，当前编码格式可使用VLC播放器播放。输出的mp4文件可通过VLC媒体播放器查看，其他一些媒体播放器可能无法正常查看。

✨ 主要特性

本模型基于多阶段文本到视频生成扩散模型，输入文本描述即可生成匹配的视频。
模型具有广泛的应用场景，能够根据任意英文文本描述进行推理并生成视频。

📚 详细文档

模型描述

文本到视频生成扩散模型由三个子网络组成：文本特征提取模型、文本特征到视频潜在空间扩散模型以及视频潜在空间到视频视觉空间模型。整体模型参数约17亿。目前仅支持英文输入。扩散模型采用UNet3D结构，通过从纯高斯噪声视频的迭代去噪过程实现视频生成。

本模型仅用于研究目的，请查看模型局限性、偏差和滥用情况以及恶意使用和过度使用情况部分。

模型详情

属性	详情
开发者	ModelScope
模型类型	基于扩散的文本到视频生成模型
支持语言	英文
许可证	CC - BY - NC - ND
更多信息资源	ModelScope GitHub仓库，概要

使用案例

本模型应用广泛，能够根据任意英文文本描述进行推理并生成视频。

模型局限性和偏差

模型基于Webvid等公共数据集进行训练，生成结果可能与训练数据的分布存在偏差。
本模型无法实现完美的影视级质量生成。
模型无法生成清晰的文本。
模型主要使用英文语料进行训练，目前不支持其他语言。
该模型在复杂构图生成任务上的性能有待提高。

滥用、恶意使用和过度使用

模型并非用于真实地呈现人物或事件，因此使用其生成此类内容超出了模型的能力范围。
严禁生成对人或其环境、文化、宗教等有贬低或有害的内容。
禁止用于色情、暴力和血腥内容的生成。
禁止用于错误和虚假信息的生成。

训练数据

训练数据包括LAION5B、ImageNet、Webvid等公共数据集。在预训练后，会进行图像和视频过滤，如美学评分、水印评分和去重等操作。

引用

    @article{wang2023modelscope,
      title={Modelscope text-to-video technical report},
      author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
      journal={arXiv preprint arXiv:2308.06571},
      year={2023}
    }
    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }

(本模型卡片部分内容取自此处)