pipeline_tag: 图像转视频
license: 其他
license_name: stable-video-diffusion-community
license_link: LICENSE.md
Stable Video Diffusion 图像转视频模型卡

Stable Video Diffusion(SVD)图像转视频是一个扩散模型,以静态图像作为条件帧并生成动态视频。
请注意:如需商业用途,请参阅 https://stability.ai/license。
模型详情
模型描述
SVD图像转视频是一个潜在扩散模型,专为从条件图像生成短视频片段而训练。
该模型在576x1024分辨率下可基于相同尺寸的上下文帧生成14帧画面。
我们同时对广泛使用的f8解码器进行了时间一致性微调。
为便于使用,我们还提供了标准逐帧解码器版本在此下载。
- 开发机构: Stability AI
- 资助方: Stability AI
- 模型类型: 生成式图像转视频模型
模型来源
研究用途推荐使用generative-models
代码库(https://github.com/Stability-AI/generative-models),该库实现了主流扩散框架(含训练与推理)。
- 代码仓库: https://github.com/Stability-AI/generative-models
- 论文: https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
评估

上图显示用户对SVD图像转视频的偏好度超过GEN-2和PikaLabs。
在视频质量方面,人类评估者更倾向选择SVD图像转视频。用户研究细节详见研究论文。
用途
直接用途
本模型仅限研究用途,适用领域包括:
- 生成模型研究
- 潜在有害内容生成模型的安全部署
- 探究生成模型的局限性与偏差
- 艺术创作与设计应用
- 教育或创意工具开发
以下为禁用场景说明。
禁用场景
本模型未针对人物/事件的事实性呈现进行训练,因此生成此类内容超出模型能力范围。
禁止以任何形式违反Stability AI可接受使用政策的行为。
局限性与偏差
局限性
- 生成视频较短(≤4秒),且未达到完美逼真效果
- 可能生成静态画面或缓慢平移镜头
- 不支持文本控制生成
- 无法呈现可读文本
- 人脸及人物生成可能失真
- 模型自动编码部分存在信息损耗
使用建议
建议仅将本模型用于研究目的。
快速开始
访问 https://github.com/Stability-AI/generative-models
附录:
所有潜在训练数据源均经过最终训练,未进行数据保留。如SVD论文所述,通过数据过滤方法实现质量控制。安全/NSFW过滤采用内部过滤器处理。训练数据准备过程未涉及人工标注,但通过第三方平台(Amazon Sagemaker/Mechanical Turk/Prolific)以12美元/小时的报酬,主要招募来自美、英、加等国的英语流利评估人员进行了大量模型输出质量评估。模型完全由Stability AI自主开发,训练总计消耗约20万A100 80GB小时,主要在48*8 A100集群完成,二氧化碳排放约1.9万千克,能耗约6.4万千瓦时。发布的SVD/SVD-XT模型会根据输入图像生成紧密关联的短视频/动画。由于依赖现有输入图像,泄露特定素材或生成新型有害内容的风险较低,第三方红队测试对此结论置信度超90%。默认设置下,SVD在A100 80GB显卡上生成耗时约100秒,SVD-XT约180秒。可通过优化实现更快推理或低显存适配。相关开发流程和使用规范详见GitHub仓库、研究论文及HuggingFace模型页。模型推理代码默认启用imWatermark库进行图像级水印标记。
禁止利用模型生成违法、淫秽或误导性内容,输入图像规避过滤机制的行为同样被禁止。stablevideo.com平台对输入输出实施独立安全过滤,详见https://www.stablevideo.com/faq。平台仅存储用户视频的点赞/点踩数据及生成过程中的配对排序数据,这些数据仅用于改进Stability AI未来模型与服务,不向第三方开放。模型使用统计可参考HuggingFace下载数据,stablevideo.com聚合数据将在达到里程碑后考虑公布。