许可协议: cc-by-nc-4.0
标签:
- 文本生成视频
复刻来源: diffusers/text-to-video-ms-1.7b
开放域文本生成视频模型
本模型基于多阶段文本到视频生成扩散模型,输入描述文本后返回符合文本描述的视频。目前仅支持英文输入。
我们正在招聘!(工作地点:中国北京/杭州)
如果您渴望迎接激动人心的挑战,并希望参与AIGC和大规模预训练领域的前沿技术工作,这里正是您理想的平台。我们正在寻找具备才华、积极进取且富有创造力的人才加入我们的团队。有意者请将简历发送至以下邮箱。
联系邮箱: yingya.zyy@alibaba-inc.com
模型描述
文本生成视频扩散模型由三个子网络组成:文本特征提取模型、文本特征到视频隐空间的扩散模型、视频隐空间到视频视觉空间的模型。整体模型参数量约17亿。目前仅支持英文输入。扩散模型采用UNet3D结构,通过从纯高斯噪声视频进行迭代去噪的过程实现视频生成。
本模型仅供研究用途。请参阅模型局限性及偏差和滥用、恶意使用及过度使用章节。
模型详情
应用场景
该模型具有广泛的应用范围,能够根据任意英文文本描述进行推理并生成视频。
使用方法
首先安装所需依赖库:
$ pip install diffusers transformers accelerate torch
生成视频示例代码:
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
prompt = "蜘蛛侠在冲浪"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)
生成效果示例:
宇航员骑马
|
达斯·维达在浪尖冲浪
|
生成长视频
通过启用注意力机制和VAE切片技术,并配合Torch 2.0使用,可优化显存占用。该配置下可在16GB GPU显存内生成最长25秒的视频。
$ pip install git+https://github.com/huggingface/diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()
prompt = "蜘蛛侠正在冲浪。达斯·维达也在冲浪并跟随蜘蛛侠"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames
video_path = export_to_video(video_frames)
查看结果
上述代码将显示输出视频的保存路径,当前编码格式可使用VLC播放器播放。
生成的mp4文件可通过VLC媒体播放器观看,部分其他播放器可能无法正常播放。
模型局限性及偏差
- 模型基于Webvid等公开数据集训练,生成结果可能存在与训练数据分布相关的偏差
- 本模型无法实现完美的影视级生成质量
- 模型无法生成清晰可辨的文字内容
- 模型主要基于英文语料训练,目前暂不支持其他语言
- 在复杂组合生成任务上,本模型性能有待提升
滥用、恶意使用及过度使用
- 禁止使用本模型生成贬低或损害个人、环境、文化、宗教等内容
- 禁止生成色情、暴力及血腥内容
- 禁止生成错误和虚假信息
- 本模型未经训练真实呈现人物或事件的能力,相关生成内容超出模型能力范围
训练数据
训练数据包含LAION5B、ImageNet、Webvid等公开数据集。在预训练后进行了美学评分、水印评分及去重等图像视频筛选处理。
(本模型卡部分内容取自此处)
引用文献
@article{wang2023modelscope,
title={Modelscope文本生成视频技术报告},
author={王久牛 and 袁航杰 and 陈大有 and 张英雅 and 王翔 and 张诗伟},
journal={arXiv预印本 arXiv:2308.06571},
year={2023}
}
@InProceedings{VideoFusion,
author = {罗正雄 and 陈大有 and 张英雅 and 黄岩 and 王亮 and 沈宇君 and 赵德丽 and 周靖人 and 谭铁牛},
title = {VideoFusion:基于分解扩散模型的高质量视频生成},
booktitle = {IEEE/CVF计算机视觉与模式识别会议论文集(CVPR)},
month = {六月},
year = {2023}
}