vid开源视频生成系统 - 免费根据英文描述创作对应视频内容

首页

Vid

由 AVIIAX 开发

基于扩散模型的多阶段文本到视频生成系统，可根据英文描述生成相应视频内容

文本生成视频 #英文文本生成视频 #多阶段扩散模型 #长视频生成优化

下载量 479

发布时间 : 11/2/2023

模型简介

该模型通过文本特征提取、扩散模型和视频空间转换三个子网络实现文本到视频的生成，参数量约17亿

模型特点

多阶段生成架构

包含文本特征提取、视频隐空间扩散和视觉空间转换三个子网络

长视频生成支持

通过注意力机制和VAE切片技术可生成最长25秒的视频

显存优化

支持模型CPU卸载和VAE切片，可在16GB GPU上运行

模型能力

英文文本到视频生成

动态场景合成

多对象组合生成

使用案例

创意内容生成

虚构场景生成

生成现实中不存在的虚构场景视频，如宇航员骑马

可生成流畅的虚构动作视频

角色动作模拟

为特定角色生成指定动作视频，如蜘蛛侠冲浪

能保持角色特征的同时完成指定动作

概念可视化

抽象概念可视化

将抽象文本描述转化为直观视频

生成符合文本描述的视频内容

🚀 开放域文本到视频合成模型

本模型基于多阶段文本到视频生成扩散模型，输入一段描述文本，即可返回与文本描述相匹配的视频。目前仅支持英文输入。

我们正在招聘！（工作地点：中国北京/杭州）

如果你正在寻找一个充满挑战的机会，渴望在AIGC和大规模预训练领域运用前沿技术，那么我们就是你的理想之选。我们正在寻找有才华、有动力且富有创造力的人才加入我们的团队。如果您感兴趣，请将简历发送给我们。

邮箱：yingya.zyy@alibaba-inc.com

🚀 快速开始

安装依赖库

$ pip install diffusers transformers accelerate torch

生成视频

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

长视频生成

你可以通过启用注意力和VAE切片并使用Torch 2.0来优化内存使用。这应该可以让你在小于16GB的GPU显存上生成长达25秒的视频。

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# 加载模型管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# 优化GPU内存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# 生成视频
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# 转换为视频
video_path = export_to_video(video_frames)

查看结果

上述代码将显示输出视频的保存路径，当前编码格式可以使用 VLC播放器播放。输出的mp4文件可以通过 VLC媒体播放器查看，其他一些媒体播放器可能无法正常查看。

✨ 主要特性

本模型基于多阶段文本到视频生成扩散模型，输入描述文本可返回匹配的视频。
模型具有广泛的应用场景，能够根据任意英文文本描述进行推理并生成视频。

📦 安装指南

$ pip install diffusers transformers accelerate torch

💻 使用示例

基础用法

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

高级用法

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# 加载模型管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# 优化GPU内存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# 生成视频
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# 转换为视频
video_path = export_to_video(video_frames)

📚 详细文档

模型描述

文本到视频生成扩散模型由三个子网络组成：文本特征提取模型、文本特征到视频潜在空间扩散模型以及视频潜在空间到视频视觉空间模型。整体模型参数约为17亿。目前，该模型仅支持英文输入。扩散模型采用UNet3D结构，通过从纯高斯噪声视频的迭代去噪过程实现视频生成。

本模型仅用于研究目的，请查看模型局限性、偏差和误用、恶意使用和过度使用部分。

模型详情

属性	详情
开发者	ModelScope
模型类型	基于扩散的文本到视频生成模型
支持语言	英语
许可证	CC - BY - NC - ND
更多信息资源	ModelScope GitHub仓库，摘要
引用方式	见下方Citation部分

使用场景

本模型具有广泛的应用场景，能够根据任意英文文本描述进行推理并生成视频。

模型局限性和偏差

该模型基于Webvid等公共数据集进行训练，生成结果可能与训练数据的分布存在偏差。
此模型无法实现完美的影视级质量生成。
模型无法生成清晰的文本。
该模型主要使用英文语料进行训练，目前不支持其他语言。
该模型在复杂构图生成任务上的性能有待提高。

误用、恶意使用和过度使用

该模型并非用于真实地呈现人物或事件，因此使用它生成此类内容超出了模型的能力范围。
禁止生成对人或其环境、文化、宗教等有贬低或有害的内容。
禁止用于色情、暴力和血腥内容的生成。
禁止用于错误和虚假信息的生成。

训练数据

训练数据包括 LAION5B、ImageNet、Webvid 等公共数据集。在预训练后，会进行图像和视频过滤，如美学评分、水印评分和去重等操作。

引用

    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }