标签:
- 文本生成视频
复刻来源: cerspense/zeroscope_v2_576w
基于大语言模型的视频扩散模型
连龙、史柏峰、Adam Yala、Trevor Darrell、李博一 来自加州大学伯克利分校/旧金山分校。ICLR 2024。
项目主页 | 相关项目:LMD | 引用
本模型基于zeroscope,但增加了类似GLIGEN风格的边界框条件控制。
与基于大语言模型的扩散模型(LMD)类似,基于大语言模型的视频扩散模型(LVD)的"框到视频"阶段支持基于交叉注意力的边界框条件控制,直接使用了现成的Zeroscope模型。本HuggingFace模型提供了另一种方案:我们在SA-1B数据集上训练了一个GLIGEN模型(即Transformer适配器),使用Zeroscope的权重(不包括时序Transformer模块),将其视为一个微调到256x256分辨率的SD v2.1模型。然后将适配器合并到Zeroscope中以实现条件控制。最终模型即为此HuggingFace模型。该模型可配合基于交叉注意力的条件控制使用,也可单独使用,类似于LMD+。既可与LVD中基于LLM的"文本到动态场景布局生成器"配合使用,也可作为GLIGEN的视频版本独立使用。
引用(LVD)
如果您使用了我们的工作、模型或本仓库中的实现,或认为它们对您有所帮助,请考虑引用:
@article{lian2023llmgroundedvideo,
title={基于大语言模型的视频扩散模型},
author={连龙 and 史柏峰 and Adam Yala and Trevor Darrell and 李博一},
journal={arXiv预印本 arXiv:2309.17444},
year={2023},
}
@article{lian2023llmgrounded,
title={基于大语言模型的扩散:用大语言模型增强文生图扩散模型的提示理解},
author={连龙 and 李博一 and Adam Yala and Trevor Darrell},
journal={arXiv预印本 arXiv:2305.13655},
year={2023}
}
引用(GLIGEN)
本模型中的适配器训练方式与GLIGEN适配器类似。
@article{li2023gligen,
title={GLIGEN:开放集落地文本生成图像},
author={李宇航 and 刘昊天 and 吴清阳 and 牟方舟 and 杨建伟 and 高剑峰 and 李春元 and Lee Yong Jae},
journal={CVPR},
year={2023}
}
引用(ModelScope)
ModelScope是LVD的基础模型。
@article{wang2023modelscope,
title={Modelscope文生视频技术报告},
author={王俊牛 and 袁航杰 and 陈大有 and 张英雅 and 王翔 and 张诗伟},
journal={arXiv预印本 arXiv:2308.06571},
year={2023}
}
@InProceedings{VideoFusion,
author = {罗正雄 and 陈大有 and 张英雅 and 黄岩 and 王亮 and 沈宇军 and 赵德丽 and 周靖人 and 谭铁牛},
title = {VideoFusion:高质量视频生成的分解扩散模型},
booktitle = {IEEE/CVF计算机视觉与模式识别会议论文集(CVPR)},
month = {六月},
year = {2023}
}
许可协议
Zeroscope遵循CC-BY-NC 4.0许可协议。GLIGEN适配器在SA-1B数据集上训练,遵循SA-1B许可协议。