text-to-video-lvd-ms开源视频生成模型 - 支持文本转视频并能控制内容

首页

Text To Video Lvd Ms

由 longlian 开发

该模型结合大语言模型与视频扩散技术，支持文本到视频生成，并可通过边界框条件输入控制视频内容。

文本生成视频 #文本转视频 #边界框条件控制 #动态场景生成

下载量 91

发布时间 : 4/8/2024

模型简介

基于大语言模型的视频扩散模型(LVD)支持文本到视频生成，采用GLIGEN风格的边界框条件输入，可直接使用魔搭社区的现成模型。

模型特点

边界框条件控制

支持GLIGEN风格的边界框条件输入，可精确控制视频中对象的位置和大小。

大语言模型集成

结合大语言模型增强提示理解能力，提升文本到视频的生成质量。

灵活应用

可作为视频版GLIGEN单独使用，也可与动态场景布局生成器配合使用。

模型能力

文本到视频生成

边界框条件控制

动态场景生成

使用案例

创意内容生成

短视频创作

根据文本描述自动生成短视频内容

可生成符合文本描述的动态视频场景

教育

教学视频生成

根据教学大纲自动生成教学视频

🚀 基于大语言模型的视频扩散模型

本项目由加州大学伯克利分校/加州大学旧金山分校的Long Lian、Baifeng Shi、Adam Yala、Trevor Darrell和Boyi Li完成，相关成果发表于ICLR 2024。本项目旨在利用大语言模型增强文本到视频的扩散模型，提升视频生成的质量和可控性。

项目主页 | 相关项目：LMD | 引用信息

🚀 快速开始

本模型基于 modelscope 构建，并以 GLIGEN 的方式引入了边界框的额外条件。

与基于大语言模型的扩散模型（LMD）类似，基于大语言模型的视频扩散模型（LVD）的框到视频阶段支持基于交叉注意力的边界框条件，该阶段直接使用了 ModelScope 的现成功能。本 Hugging Face 模型提供了另一种选择：我们在 SA - 1B 数据集上，使用 ModelScope 的权重训练了一个 GLIGEN 模型（即变压器适配器），但不包含时间变压器块，并将其视为已微调至 256x256 分辨率的 SD v2.1 模型。然后，我们将适配器合并到 ModelScope 中以提供条件。最终的模型就存储在这个 Hugging Face 模型中。该模型可以与基于交叉注意力的条件结合使用，也可以单独使用，类似于 LMD+。它既可以与 LVD 中基于大语言模型的文本到动态场景布局生成器结合使用，也可以单独作为 GLIGEN 的视频版本使用。

📚 详细文档

引用说明（LVD）

如果您使用了我们的工作、模型或本仓库中的实现，或者认为它们对您有帮助，请考虑进行引用：

@article{lian2023llmgroundedvideo,
      title={LLM-grounded Video Diffusion Models}, 
      author={Lian, Long and Shi, Baifeng and Yala, Adam and Darrell, Trevor and Li, Boyi},
      journal={arXiv preprint arXiv:2309.17444},
      year={2023},
}

@article{lian2023llmgrounded,
    title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models}, 
    author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
    journal={arXiv preprint arXiv:2305.13655},
    year={2023}
}

引用说明（GLIGEN）

本模型中的适配器采用了类似于训练 GLIGEN 适配器的方式进行训练：

@article{li2023gligen,
  title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
  author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
  journal={CVPR},
  year={2023}
}

引用说明（ModelScope）

ModelScope 是 LVD 的基础模型：

@article{wang2023modelscope,
    title={Modelscope text-to-video technical report},
    author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
    journal={arXiv preprint arXiv:2308.06571},
    year={2023}
}
@InProceedings{VideoFusion,
    author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
    title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2023}
}