许可协议: cc-by-nc-4.0
标签:
- 文本生成视频
复刻来源: diffusers/text-to-video-ms-1.7b
开放域文本生成视频模型
本模型基于多阶段文本生成视频扩散模型架构,输入描述文本可生成符合文本描述的视频内容。目前仅支持英文输入。
我们正在招聘!(工作地点:中国北京/杭州)
如果您渴望迎接激动人心的挑战,并希望参与AIGC与大模型预训练领域的前沿技术工作,我们正是您理想的平台。现诚聘具备才华、动力与创造力的专业人士加入我们的团队。有意者请将简历发送至以下邮箱。
联系邮箱:yingya.zyy@alibaba-inc.com
模型描述
文本生成视频扩散模型包含三个子网络:文本特征提取模型、文本特征到视频潜空间的扩散模型,以及视频潜空间到视频视觉空间的模型。总参数量约17亿,当前仅支持英文输入。扩散模型采用UNet3D结构,通过从纯高斯噪声视频进行迭代去噪的过程实现视频生成。
本模型仅供研究用途,请仔细阅读模型局限与偏差及滥用、恶意使用与过度使用章节。
模型详情
应用场景
本模型具有广泛的应用潜力,可根据任意英文文本描述进行推理并生成相应视频内容。
使用方式
首先安装必要依赖库:
$ pip install diffusers transformers accelerate
生成视频示例:
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
prompt = "蜘蛛侠在冲浪"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)
生成效果示例:
宇航员骑马
|
达斯·维达乘风破浪
|
生成长视频
通过启用注意力机制与VAE切片技术,配合Torch 2.0环境,可在16GB显存下生成最长25秒的视频。
$ pip install git+https://github.com/huggingface/diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()
prompt = "蜘蛛侠在冲浪。达斯·维达也在冲浪并跟随蜘蛛侠"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames
video_path = export_to_video(video_frames)
查看结果
上述代码将显示输出视频的保存路径,当前编码格式可使用VLC播放器播放。
生成的mp4文件建议使用VLC媒体播放器观看,部分播放器可能出现兼容性问题。
模型局限与偏差
- 模型基于Webvid等公开数据集训练,生成结果可能存在与训练数据分布相关的偏差
- 本模型无法实现影视级画质的完美生成
- 模型暂不支持生成清晰可辨的文字内容
- 模型主要基于英文语料训练,目前暂不支持其他语言
- 在复杂组合生成任务上表现有待提升
滥用、恶意使用与过度使用
- 禁止使用本模型生成贬损或危害特定人群、环境、文化、宗教等内容
- 禁止生成色情、暴力及血腥内容
- 禁止生成错误与虚假信息
- 本模型未针对真实人物/事件表征进行专门训练,相关生成内容可能不符合现实
训练数据
训练数据包含LAION5B、ImageNet、Webvid等公开数据集,经过美学评分、水印检测、去重等预处理筛选。
(部分模型卡片内容改编自此处)
引用文献
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}