TrackDiffusion_SVD_Stage2开源视频生成模型 - 以轨迹为条件轻松生成视频

首页

Trackdiffusion SVD Stage2

由 pengxiang 开发

TrackDiffusion是一种以目标轨迹为条件输入的扩散模型，可基于轨迹生成视频。

视频处理开源协议:其他 #轨迹条件视频生成 #动态物体控制 #跨帧一致性

下载量 0

发布时间 : 4/8/2024

模型简介

TrackDiffusion是一种创新的视频生成框架，通过将目标轨迹作为生成条件，实现了对视频合成中复杂动态的精细化控制。该方法支持精确调控物体运动轨迹和交互行为，有效解决了物体出现/消失、尺度变化以及跨帧一致性等挑战。

模型特点

轨迹条件输入

以目标轨迹作为生成条件，实现对视频合成的精细化控制

复杂动态处理

有效处理物体出现/消失、尺度变化等复杂动态场景

跨帧一致性

确保生成视频中物体的跨帧一致性

模型能力

基于轨迹生成视频

视频动态控制

物体运动轨迹调控

使用案例

视频生成

轨迹控制视频合成

根据输入的物体运动轨迹生成相应的视频序列

生成与输入轨迹匹配的视频内容

🚀 TrackDiffusion模型卡片

TrackDiffusion是一种以轨迹片段为条件的扩散模型，能够基于此生成视频。它为视频合成中的复杂动态提供了细粒度控制，解决了物体在视频中出现、消失、尺度变化以及帧间一致性等问题。

🚀 快速开始

请从这个链接(https://huggingface.co/pengxiang/trackdiffusion_ytvis)下载模型权重。

✨ 主要特性

TrackDiffusion是一种新颖的视频生成框架，通过在生成过程中以物体轨迹为条件，实现了对视频合成中复杂动态的细粒度控制。这种方法允许精确操纵物体轨迹和交互，解决了管理物体外观、消失、尺度变化以及确保帧间一致性的挑战。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

我们提供了整个Unet的权重，你可以在Diffusers管道中替换它，例如：

pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
    pretrained_model_path, 
    unet=unet,
    torch_dtype=torch.float16,
    variant="fp16",
    low_cpu_mem_usage=True)

📚 详细文档

模型描述

用途

直接使用

我们提供了整个Unet的权重，你可以在Diffusers管道中替换它，示例代码如下：

pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
    pretrained_model_path, 
    unet=unet,
    torch_dtype=torch.float16,
    variant="fp16",
    low_cpu_mem_usage=True)