Stable Video Diffusion开源图像转视频模型 - 免费将静态图变短视频片段

首页

Stable Video Diffusion Img2vid

由 model-hub 开发

Stable Video Diffusion（SVD）是一个扩散模型，能够以静态图像作为输入条件生成短视频片段。

视频处理开源协议:其他 #静态图转短视频 #14帧动态生成 #艺术创作辅助

下载量 116

发布时间 : 12/14/2023

模型简介

该模型是一个潜在扩散模型，经过训练可以从图像条件生成短视频片段（14帧）。模型包含微调的f8解码器以确保时间一致性。

模型特点

图像条件生成

以静态图像作为输入条件生成连贯的视频片段

时间一致性解码器

使用微调的f8解码器确保生成视频的时间连贯性

高质量输出

在用户研究中表现出优于同类模型的视频生成质量

模型能力

从静态图像生成短视频

保持视频帧间连贯性

576x1024分辨率视频生成

使用案例

研究用途

生成模型研究

用于探索视频生成模型的技术边界

模型安全研究

研究可能产生有害内容的模型安全部署方案

创意应用

艺术创作

为艺术家和设计师提供创意工具

教育工具

开发教育或创意工具

🚀 稳定视频扩散图像到视频模型卡片

稳定视频扩散（SVD）图像到视频模型是一种扩散模型，它以静态图像作为条件帧，从中生成视频。该模型为图像生成领域带来了新的可能性，能够将单一图像转化为动态视频，在研究和创意应用方面具有重要价值。

🚀 快速开始

若要开始使用该模型，请查看 https://github.com/Stability-AI/generative-models

✨ 主要特性

以静态图像为条件帧生成视频。
经过训练可生成 14 帧分辨率为 576x1024 的短视频片段。
微调了广泛使用的 f8 - 解码器以保证时间一致性。
额外提供了标准逐帧解码器点击查看。

📚 详细文档

模型描述

(SVD) 图像到视频是一种潜在扩散模型，经过训练可根据图像条件生成短视频片段。该模型在给定相同大小的上下文帧时，可生成 14 帧分辨率为 576x1024 的视频。

开发者：Stability AI
资助方：Stability AI
模型类型：生成式图像到视频模型

模型来源

出于研究目的，建议使用 generative - models Github 仓库 (https://github.com/Stability - AI/generative - models)，该仓库实现了最流行的扩散框架（包括训练和推理）。

仓库地址：https://github.com/Stability - AI/generative - models
论文地址：https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets

评估

comparison 上图评估了用户对 SVD 图像到视频模型相对于 GEN - 2 和 PikaLabs 的偏好。在视频质量方面，人类投票者更倾向于 SVD 图像到视频模型。有关用户研究的详细信息，请参考 [研究论文](https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets)