Latte - 1开源视频生成模型 - 免费支持多数据集预训练用于文本生成视频

首页

Latte 1

由 maxin-cn 开发

Latte是一个基于Transformer的潜在扩散模型，专注于文本生成视频任务，支持多种数据集预训练权重。

文本生成视频开源协议:Apache-2.0 #文本生成视频 #潜在扩散Transformer #多模态生成

下载量 1,027

发布时间 : 6/3/2024

模型简介

Latte是一个基于Transformer架构的潜在扩散模型，主要用于文本生成视频任务。它支持从文本输入生成高质量视频内容，并提供了多种数据集的预训练权重。

模型特点

文本生成视频

支持从文本描述生成高质量视频内容

多数据集支持

提供FaceForensics、SkyTimelapse、UCF101和Taichi-HD等多种数据集的预训练权重

Transformer架构

采用基于Transformer的潜在扩散模型架构

文本生成图像功能

最新版本Latte-1同时支持文本生成图像功能

模型能力

文本生成视频

文本生成图像

使用案例

视频创作

创意视频生成

根据文本描述自动生成创意视频内容

可生成高质量的视频片段

教育

教学视频生成

根据教学内容自动生成演示视频

🚀 Latte：用于视频生成的潜在扩散Transformer

本仓库包含我们探索使用Transformer的潜在扩散模型（Latte）的文本到视频生成预训练权重。你可以在我们的项目页面上查看更多可视化效果。如果你想获取在FaceForensics、SkyTimelapse、UCF101和Taichi - HD上的预训练权重，请参考此处。

📢 最新消息

(🔥 新消息) 2024年5月23日。💥 用于文本到视频生成的 Latte - 1 发布啦！你可以从这里下载预训练模型。Latte - 1还支持文本到图像生成，请运行bash脚本 sample/t2i.sh。
(🔥 新消息) 2024年3月20日。💥 一个更新版的LatteT2V模型即将推出，敬请期待！
(🔥 新消息) 2024年2月24日。💥 我们非常感谢研究人员和开发者喜欢我们的工作。我们将继续更新我们的LatteT2V模型，希望我们的努力能助力社区发展。我们创建了Latte的Discord频道用于讨论，欢迎开发者贡献代码。
(🔥 新消息) 2024年1月9日。💥 一个使用PixArt - α初始化的更新版LatteT2V模型发布了，检查点可以在这里找到。
(🔥 新消息) 2023年10月31日。💥 训练和推理代码已发布。所有检查点（包括FaceForensics、SkyTimelapse、UCF101和Taichi - HD）可以在这里找到。此外，还提供了LatteT2V推理代码。

📞 联系我们

王耀辉：wangyaohui@pjlab.org.cn 马鑫：xin.ma1@monash.edu

📚 引用

如果你发现这项工作对你的研究有用，请考虑引用它。

@article{ma2024latte,
  title={Latte: Latent Diffusion Transformer for Video Generation},
  author={Ma, Xin and Wang, Yaohui and Jia, Gengyun and Chen, Xinyuan and Liu, Ziwei and Li, Yuan - Fang and Chen, Cunjian and Qiao, Yu},
  journal={arXiv preprint arXiv:2401.03048},
  year={2024}
}

论文链接：https://huggingface.co/papers/2401.03048