Stable Video Diffusion Img2Vid XT开源模型 - 把静态图像轻松变成短视频片段

首页

Stable Video Diffusion Img2vid Xt

由 model-hub 开发

一个扩散模型，可将静态图像作为条件帧生成短视频片段

视频处理开源协议:其他 #静态图转视频 #短时视频生成 #艺术创作辅助

下载量 170

发布时间 : 12/14/2023

模型简介

稳定视频扩散(SVD)图像转视频是一种潜在扩散模型，经过训练可从条件图像生成25帧576x1024分辨率的短视频，基于14帧版本微调而来

模型特点

高分辨率视频生成

支持576x1024分辨率的视频生成

长视频生成

可生成25帧视频（约4秒），比基础14帧版本更长

时序一致性解码器

采用经过时序一致性微调的f8解码器，提升视频连贯性

基于图像条件生成

以静态图像作为输入条件生成动态视频内容

模型能力

静态图像转视频

短视频生成

创意内容生成

使用案例

创意艺术

艺术创作

将静态艺术作品转化为动态视频表现形式

生成具有艺术感的短视频片段

设计辅助

为设计作品添加动态效果展示

快速预览设计作品的动态效果

研究领域

生成模型研究

用于视频生成算法的研究与改进

模型安全研究

研究生成模型的安全部署方案

🚀 稳定视频扩散图像转视频模型卡片

稳定视频扩散（SVD）图像转视频是一种扩散模型，它以静态图像作为条件帧，并从中生成视频，为图像到视频的转换提供了新的解决方案，具有广泛的研究和应用价值。

🚀 快速开始

若要开始使用该模型，请查看 generative - models 。

✨ 主要特性

以静态图像为条件帧生成视频。
经过微调，可生成25帧分辨率为576x1024的视频。
微调了 f8 - decoder 以保证时间一致性。
额外提供了标准逐帧解码器。

📚 详细文档

模型详情

模型描述

稳定视频扩散（SVD）图像转视频是一种潜在扩散模型，经过训练可根据图像条件生成短视频片段。该模型经过训练，在给定相同大小的上下文帧的情况下，可生成25帧分辨率为576x1024的视频，它是基于 SVD Image - to - Video [14 frames] 进行微调的。同时，为了保证时间一致性，我们还对广泛使用的 f8 - decoder 进行了微调。为方便使用，我们还在此处提供了带有标准逐帧解码器的模型 here。

开发者：Stability AI
资助方：Stability AI
模型类型：生成式图像转视频模型
微调基础模型：SVD Image - to - Video [14 frames]

模型来源

出于研究目的，我们推荐使用我们的 generative - models GitHub 仓库（https://github.com/Stability - AI/generative - models），该仓库实现了最流行的扩散框架（包括训练和推理）。

仓库地址：https://github.com/Stability - AI/generative - models
论文地址：https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets

评估

comparison 上图评估了用户对 SVD - Image - to - Video 相对于 GEN - 2 和 PikaLabs 的偏好。在视频质量方面，人类投票者更倾向于 SVD - Image - to - Video。关于用户研究的详细信息，请参考 [研究论文](https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets)。