GenEx-World-Explorer开源视频生成模型 - 按关键帧生成连贯视频探索场景

首页

Genex World Explorer

由 TaiMingLu 开发

基于稳定视频扩散模型(SVD)构建的视频生成流程，通过关键帧生成时间连贯的视频，用于探索给定场景。

视频处理 #全景视频生成 #时空连贯性 #场景探索

下载量 36

发布时间 : 4/23/2025

模型简介

该模型通过定制UNet时空条件模型增强稳定视频扩散模型，能够沿着全景输入图像生成前进路径，探索虚拟场景。

模型特点

时空连贯性生成

通过定制UNet时空条件模型确保生成视频的时间连贯性

场景探索能力

能够沿着全景图像生成前进路径，模拟场景探索效果

高分辨率输出

支持1024×576分辨率的高质量视频生成

模型能力

图像转视频生成

场景探索模拟

时空连贯视频合成

使用案例

虚拟探索

虚拟旅游

通过静态全景图生成动态探索视频

生成25帧连贯视频

游戏场景预览

从游戏场景概念图生成动态预览

高分辨率动态展示

创意内容

艺术创作

将静态艺术作品转化为动态展示

增强艺术表现力

🚀 GenEx-World-Explorer 🌍

GenEx World Explorer 是一个基于 Stable Video Diffusion (SVD) 的视频生成管道。它以关键帧为输入，生成时间上连贯的视频。此探索者版本在 SVD 的基础上，采用了自定义的 UNetSpatioTemporalConditionModel。

该扩散器能够根据全景输入图像生成向前移动的路径，从而对给定场景进行探索。

🚀 快速开始

安装依赖

diffusers>=0.33.1
transformers
numpy
pillow

使用示例

from diffusers import UNetSpatioTemporalConditionModel, StableVideoDiffusionPipeline
import torch
from PIL import Image

model_id = 'genex-world/GenEx-World-Explorer'

# 加载自定义 UNet
unet = UNetSpatioTemporalConditionModel.from_pretrained(
    model_id,
    subfolder='unet',
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
)

# 加载带有自定义 UNet 的完整管道
pipe = StableVideoDiffusionPipeline.from_pretrained(
    model_id,
    unet=unet,
    low_cpu_mem_usage=True,
    torch_dtype=torch.float16,
    local_files_only=True,
).to('cuda')

# 探索世界！
image = Image.open('example.png').resize((1024, 576), Image.BICUBIC).convert('RGB')

generator = torch.manual_seed(-1)
with torch.inference_mode():
    frames = self.pipe(image,
                num_frames=25,
                width=1024,
                height=576,
                decode_chunk_size=8, generator=generator, motion_bucket_id=127, fps=7, num_inference_steps=30, noise_aug_strength=0.02).frames[0]

📚 详细文档

模型信息

属性	详情
基础模型	stabilityai/stable-video-diffusion-img2vid-xt-1-1
模型类型	图像到视频
训练数据	TaiMingLu/Genex-DB-World-Exploration
许可证	cc-by-4.0

引用信息

@misc{lu2025genexgeneratingexplorableworld,
      title={GenEx: Generating an Explorable World}, 
      author={Taiming Lu and Tianmin Shu and Junfei Xiao and Luoxin Ye and Jiahao Wang and Cheng Peng and Chen Wei and Daniel Khashabi and Rama Chellappa and Alan Yuille and Jieneng Chen},
      year={2025},
      eprint={2412.09624},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2412.09624}, 
}