DFoT开源视频扩散模型 - 依据多上下文帧免费生成高质量视频

首页

Dfot

由 kiwhansong 开发

一种新颖的视频扩散模型，能够根据任意数量的上下文帧生成高质量视频

视频处理开源协议:MIT #视频扩散生成 #多帧条件生成 #长视频稳定性

下载量 47.19k

发布时间 : 2/7/2025

模型简介

DFoT是一种创新的视频生成模型，结合了历史引导(HG)方法，显著提升了视频生成质量、时间一致性和运动动态，支持从单帧或多帧图像生成短视频或极长视频

模型特点

历史引导(HG)方法

DFoT特有的引导技术，显著提升视频生成质量、时间一致性和运动动态

灵活上下文输入

支持从任意数量(包括单张)的上下文帧生成视频

长视频生成能力

能够生成10秒以上的长视频，甚至支持无限导航视频生成

组合视频生成

支持将不同视频片段组合生成连贯的长视频

模型能力

从单张图像生成视频

从多帧图像生成视频

生成长时间稳定视频

组合视频生成

视频动态控制

使用案例

视频创作

短视频生成

从1-2张图像生成2秒的短视频

高质量、时间一致的短视频片段

长视频生成

从单张图像生成10秒以上的长视频

动态稳定、连贯的长视频

无限导航视频

从单张图像生成无限延展的导航视频

持续稳定、无边界限制的视频流

内容编辑

视频组合

将不同视频片段组合生成连贯的新视频

无缝衔接的组合视频

🚀 扩散强制变压器（Diffusion Forcing Transformer）

本项目是论文 《历史引导的视频扩散》 的官方模型中心。我们推出了 扩散强制变压器（Diffusion Forcing Tranformer，DFoT），这是一种新颖的视频扩散模型，旨在根据任意数量的上下文帧生成视频。此外，我们还提出了 历史引导（History Guidance，HG） 方法，这是一类由 DFoT 独特实现的引导方法。这些方法显著提高了视频生成的质量、时间一致性和运动动态，同时还解锁了新的功能，如组合视频生成和极长视频的稳定滚动。

image/png

🚀 快速开始

🤗 试用 DFoT 生成视频！

我们在 HuggingFace Spaces 上提供了一个 交互式 演示，您可以在其中使用 DFoT 和历史引导方法生成视频。在 RealEstate10K 数据集上，您可以进行以下操作：

任意数量的图像 → 2 秒短视频
单张图像 → 10 秒长视频
单张图像 → 无限导航视频（如上面的预告所示！）

快来体验，享受使用 DFoT 生成视频的乐趣吧！

🚀 使用方法

所有预训练模型都可以从我们的 GitHub 代码库自动加载。请访问我们的仓库获取更多说明！

📄 许可证

本项目采用 MIT 许可证。

📌 引用

如果我们的工作对您的研究有帮助，请考虑引用我们的论文：

@misc{song2025historyguidedvideodiffusion,
  title={History-Guided Video Diffusion}, 
  author={Kiwhan Song and Boyuan Chen and Max Simchowitz and Yilun Du and Russ Tedrake and Vincent Sitzmann},
  year={2025},
  eprint={2502.06764},
  archivePrefix={arXiv},
  primaryClass={cs.LG},
  url={https://arxiv.org/abs/2502.06764}, 
}