license: cc-by-nc-4.0
tags:
- 文生视频
duplicated_from: diffusers/text-to-video-ms-1.7b
开放领域文本生成视频模型
该模型基于多阶段文本到视频生成扩散模型,输入描述文本,返回与文本内容相匹配的视频片段。目前仅支持英文输入。
我们正在招聘!(工作地点:中国北京/杭州)
如果您渴望迎接激动人心的挑战,并希望参与AIGC和大规模预训练等前沿技术研发,这里将是您的理想平台。我们正在寻找有才华、有激情、富有创造力的人才加入我们的团队。如有意向,请将简历发送至以下邮箱。
联系邮箱:yingya.zyy@alibaba-inc.com
模型描述
文本生成视频扩散模型由三个子网络组成:文本特征提取模型、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间模型。整体模型参数约17亿,目前仅支持英文输入。扩散模型采用UNet3D结构,通过从纯高斯噪声视频中迭代去噪的过程实现视频生成。
本模型仅限于研究用途。请参阅模型局限性与偏差和滥用、恶意使用及过度使用章节。
模型详情
应用场景
该模型具有广泛的应用范围,能够基于任意英文文本描述进行推理并生成视频。
使用方式
首先安装所需依赖库:
$ pip install diffusers transformers accelerate torch
生成视频示例:
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
prompt = "蜘蛛侠在冲浪"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)
生成效果示例:
宇航员骑马
|
达斯·维达在浪花中冲浪
|
生成长视频
通过启用注意力机制和VAE切片,并配合Torch 2.0可优化显存占用。该配置可在16GB GPU显存下生成最长25秒的视频。
$ pip install git+https://github.com/huggingface/diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()
prompt = "蜘蛛侠在冲浪。达斯·维达也在冲浪并跟随蜘蛛侠"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames
video_path = export_to_video(video_frames)
查看结果
上述代码将显示输出视频的保存路径,当前编码格式可通过VLC播放器播放。
生成的mp4文件可使用VLC媒体播放器查看,部分其他播放器可能无法正常播放。
模型局限性与偏差
- 模型基于Webvid等公开数据集训练,生成结果可能存在与训练数据分布相关的偏差
- 该模型无法实现完美的影视级生成质量
- 模型无法生成清晰可辨的文字内容
- 模型主要以英文语料训练,目前暂不支持其他语言**
- 在复杂组合生成任务上,该模型性能仍有待提升
滥用、恶意使用与过度使用
- 该模型未经训练用于真实人物或事件的表征,因此用其生成此类内容超出模型能力范围
- 禁止生成贬低或危害人物及其环境、文化、宗教等内容
- 禁止用于色情、暴力和血腥内容生成
- 禁止生成错误和虚假信息
训练数据
训练数据包含LAION5B、ImageNet、Webvid等公开数据集。在预训练后进行了美学评分、水印评分、去重等图像视频筛选处理。
(本模型卡部分内容引自此处)
引用文献
@article{wang2023modelscope,
title={Modelscope文本生成视频技术报告},
author={王久牛 and 袁航杰 and 陈大有 and 张英雅 and 王翔 and 张世伟},
journal={arXiv预印本 arXiv:2308.06571},
year={2023}
}
@InProceedings{VideoFusion,
author = {罗正雄 and 陈大有 and 张英雅 and 黄岩 and 王亮 and 沈宇军 and 赵德丽 and 周靖人 and 谭铁牛},
title = {VideoFusion:基于分解扩散模型的高质量视频生成},
booktitle = {IEEE/CVF计算机视觉与模式识别会议论文集(CVPR)},
month = {六月},
year = {2023}
}