模型简介
模型特点
模型能力
使用案例
license: other license_name: skywork-license license_link: LICENSE pipeline_tag: image-to-video
SkyReels V2:无限长度电影生成模型
📑 技术报告 · 👋 在线体验 · 💬 Discord社区 · 🤗 Hugging Face · 🤖 ModelScope · 🌐 GitHub
欢迎来到SkyReels V2代码库!这里提供我们无限长度电影生成模型的权重文件。据我们所知,这是首个采用自回归扩散强制架构的开源视频生成模型,在公开模型中实现了最先进的性能表现。
🔥🔥🔥 最新动态!!
- 2025年4月24日:🔥 发布720P模型 SkyReels-V2-DF-14B-720P 和 SkyReels-V2-I2V-14B-720P。前者支持无限长度自回归视频生成,后者专注图像转视频合成。
- 2025年4月21日:👋 发布 SkyReels-V2 系列模型推理代码与权重,以及视频描述模型 SkyCaptioner-V1。
- 2025年4月3日:🔥 同步开源 SkyReels-A2——可自由组合视觉元素的可控视频生成框架。
- 2025年2月18日:🔥 发布 SkyReels-A1——高效开源的人像动画生成框架。
- 2025年2月18日:🔥 推出 SkyReels-V1——首个也是最先进的开源人物视频基础模型。
🎥 效果展示
📑 开发计划
- [x] 技术报告
- [x] 14B与1.3B系列模型权重
- [x] 单卡/多卡推理代码
- [x] SkyCaptioner-V1视频描述模型
- [x] 提示词增强器
- [ ] Diffusers集成
- [ ] 5B系列模型权重
- [ ] 镜头导演模型权重
- [ ] 步数引导蒸馏模型权重
🚀 快速开始
环境安装
# 克隆代码库
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
# 安装依赖(测试环境Python 3.10.12)
pip install -r requirements.txt
模型下载
从Hugging Face下载模型:
类型 | 模型变体 | 推荐分辨率/帧数 | 下载链接 |
---|---|---|---|
扩散强制 | 1.3B-540P | 544*960*97帧 | 🤗 Huggingface 🤖 ModelScope |
5B-540P | 544*960*97帧 | 即将发布 | |
5B-720P | 720*1280*121帧 | 即将发布 | |
14B-540P | 544*960*97帧 | 🤗 Huggingface 🤖 ModelScope | |
14B-720P | 720*1280*121帧 | 🤗 Huggingface 🤖 ModelScope | |
文生视频 | 1.3B-540P | 544*960*97帧 | 即将发布 |
5B-540P | 544*960*97帧 | 即将发布 | |
5B-720P | 720*1280*121帧 | 即将发布 | |
14B-540P | 544*960*97帧 | 🤗 Huggingface 🤖 ModelScope | |
14B-720P | 720*1280*121帧 | 🤗 Huggingface 🤖 ModelScope | |
图生视频 | 1.3B-540P | 544*960*97帧 | 🤗 Huggingface 🤖 ModelScope |
5B-540P | 544*960*97帧 | 即将发布 | |
5B-720P | 720*1280*121帧 | 即将发布 | |
14B-540P | 544*960*97帧 | 🤗 Huggingface 🤖 ModelScope | |
14B-720P | 720*1280*121帧 | 🤗 Huggingface 🤖 ModelScope | |
镜头导演 | 5B-540P | 544*960*97帧 | 即将发布 |
5B-720P | 720*1280*121帧 | 即将发布 | |
14B-720P | 720*1280*121帧 | 即将发布 |
下载完成后,在生成命令中设置模型路径:
单卡推理
- 扩散强制长视频生成
扩散强制版本模型支持生成无限长度视频,兼容**文生视频(T2V)和图生视频(I2V)**任务,支持同步/异步两种推理模式。以下是两个长视频生成示例脚本,如需调整推理参数(如视频时长、推理模式),请先阅读下方说明。
同步生成10秒视频:
model_id=Skywork/SkyReels-V2-DF-14B-540P
# 同步推理
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "黎明时分的静谧湖面,一只优雅的白天鹅弯曲着修长脖颈,精致的羽毛在晨光中闪耀,它悠然游弋,完美的倒影映在如镜的水面上,薄雾从湖面升起,天鹅不时低头入水觅食。" \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
异步生成30秒视频:
model_id=Skywork/SkyReels-V2-DF-14B-540P
# 异步推理
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 5 \
--causal_block_size 5 \
--base_num_frames 97 \
--num_frames 737 \
--overlap_history 17 \
--prompt "黎明时分的静谧湖面,一只优雅的白天鹅弯曲着修长脖颈,精致的羽毛在晨光中闪耀,它悠然游弋,完美的倒影映在如镜的水面上,薄雾从湖面升起,天鹅不时低头入水觅食。" \
--addnoise_condition 20 \
--offload
注意事项:
- 执行**图生视频(I2V)**任务时需添加
--image ${图片路径}
参数,建议使用类似文生视频的提示词(包含首帧画面描述)- 生成长视频时只需调整
--num_frames
参数,例如--num_frames 257
对应10秒视频,--num_frames 377
对应15秒,--num_frames 737
对应30秒,--num_frames 1457
对应60秒。该数值与逻辑帧数非严格对应,但与训练参数对齐可获得更佳效果。使用异步推理(causal_block_size>1)时需谨慎设置该参数- 使用
--ar_step 5
启用异步推理时建议设置--causal_block_size 5
,同步推理时不应设置此参数。注意每轮迭代输入模型的帧潜变量数(如base_num_frames=97时为(97-1)//4+1=25;最后一轮为(237-97-(97-17)x1+17-1)//4+1=20)必须能被causal_block_size整除。若计算困难可直接使用我们推荐的参数设置。异步推理需要更多扩散步骤,因此速度慢于同步模式,但实验表明其能提升指令跟随和视觉一致性表现- 降低
--base_num_frames
至77或57可减少显存峰值(保持相同生成长度),但可能轻微影响画质,不建议设置过小--addnoise_condition
通过添加噪声到干净条件来平滑长视频生成,推荐值20,超过50可能导致不一致- 1.3B模型生成540P视频约需14.7GB显存峰值,14B模型约需51.2GB
- 文生视频 & 图生视频
# 文生视频生成
model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "群山环绕的宁静湖泊,几只天鹅优雅滑过水面,阳光在水面跳跃" \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
注意事项:
- 使用**图生视频(I2V)**模型时必须通过
--image ${图片路径}
参数提供输入图像,推荐参数--guidance_scale 5.0
和--shift 3.0
- 1.3B模型生成540P视频约需14.7GB显存峰值,14B模型约需43.4GB
- 提示词增强器
提示词增强器基于Qwen2.5-32B-Instruct实现,通过--prompt_enhancer
参数调用。对简短提示词效果显著,长提示词可能生成过度冗长的描述导致视频内容过饱和。注意使用--prompt_enhancer
时GPU峰值内存需64G+。如需单独获取增强后的提示词,可运行以下测试脚本:
cd skyreels_v2_infer/pipelines
python3 prompt_enhancer.py --prompt "群山环绕的宁静湖泊,几只天鹅优雅滑过水面,阳光在水面跳跃"
注意:
- 使用
--use_usp
参数时不可同时启用--prompt_enhancer
。建议先运行prompt_enhancer.py生成增强提示词后再启用--use_usp
高级参数配置
参数 | 推荐值 | 说明 |
---|---|---|
--prompt | 视频生成文本描述 | |
--image | 图生视频输入图像路径 | |
--resolution | 540P或720P | 输出分辨率(根据模型类型选择) |
--num_frames | 97或121 | 生成总帧数(540P模型用97,720P用121) |
--inference_steps | 50 | 去噪步数 |
--fps | 24 | 输出视频帧率 |
--shift | 8.0或5.0 | 流匹配调度参数(文生视频8.0,图生视频5.0) |
--guidance_scale | 6.0或5.0 | 文本遵循强度(文生视频6.0,图生视频5.0) |
--seed | 固定随机种子(留空则随机生成) | |
--offload | True | 将模型组件卸载到CPU以减少显存占用(推荐) |
--use_usp | True | 启用xDiT USP多GPU加速 |
--outdir | ./video_out | 视频输出目录 |
--prompt_enhancer | True | 将提示词扩展为详细描述 |
--teacache | False | 启用teacache加速推理 |
--teacache_thresh | 0.2 | 提速阈值(值越大画质损失越大) |
--use_ret_steps | False | teacache保留步数 |
扩散强制专用参数
参数 | 推荐值 | 说明 |
---|---|---|
--ar_step | 0 | 异步推理控制(0为同步模式) |
--base_num_frames | 97或121 | 基础帧数(540P用97,720P用121) |
--overlap_history | 17 | 长视频平滑过渡的重叠帧数 |
--addnoise_condition | 20 | 提升长视频一致性 |
--causal_block_size | 5 | 异步推理时推荐设置(--ar_step>0) |
使用xDiT USP的多卡推理
我们使用xDiT USP加速推理。例如使用2张GPU生成视频:
- 扩散强制
model_id=Skywork/SkyReels-V2-DF-14B-540P
# 扩散强制同步推理
torchrun --nproc_per_node=2 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "黎明时分的静谧湖面,一只优雅的白天鹅弯曲着修长脖颈,精致的羽毛在晨光中闪耀,它悠然游弋,完美的倒影映在如镜的水面上,薄雾从湖面升起,天鹅不时低头入水觅食。" \
--addnoise_condition 20 \
--use_usp \
--offload \
--seed 42
- 文生视频 & 图生视频
# 文生视频生成
model_id=Skywork/SkyReels-V2-T2V-14B-540P
torchrun --nproc_per_node=2 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--offload \
--prompt "群山环绕的宁静湖泊,几只天鹅优雅滑过水面,阳光在水面跳跃" \
--use_usp \
--seed 42
注意事项:
- 使用**图生视频(I2V)**模型时必须通过
--image ${图片路径}
参数提供输入图像,推荐参数--guidance_scale 5.0
和--shift 3.0
目录
摘要
当前视频生成领域虽在扩散模型和自回归框架取得进展,但仍存在提示词遵循、画质、运动动态与时长之间的平衡难题:为提升时序画质牺牲运动动态,为保障分辨率限制视频时长(5-10秒),以及通用多模态大语言模型(MLLM)无法解析镜头构图、演员表情、摄像机运动等电影语法导致的镜头感知生成不足。这些相互制约的局限阻碍了长视频合成与专业电影风格生成。
为此,我们推出全球首个采用扩散强制框架的无限长度电影生成模型SkyReels-V2。该方法融合多模态大语言模型(MLLM)、多阶段预训练、强化学习与扩散强制技术实现全面优化。除技术创新外,SkyReels-V2通过Skyreels-A2系统支持故事生成、图像转视频、镜头导演及多主体一致视频生成等实际应用。
SkyReels-V2方法论
SkyReels-V2方法包含多个互联组件:始于涵盖多质量训练数据的预处理流程,核心是提供视频内容细粒度标注的视频描述器架构,采用多任务预训练策略构建基础视频生成能力。训练后优化包括强化学习提升运动质量、扩散强制训练实现长视频生成,以及高质量监督微调(SFT)阶段进行视觉精修。模型运行于优化计算架构实现高效训练推理,支持故事生成、图像转视频、镜头导演及元素组合视频生成等应用。
SkyReels-V2核心贡献
视频描述器
SkyCaptioner-V1作为我们的视频标注模型,基于基础模型Qwen2.5-VL-72B-Instruct的标注结果与子专家标注器在平衡视频数据上训练。该平衡数据集包含约200万条经概念平衡与质量控制的视频,以Qwen2.5-VL-7B-Instruct为基础模型微调,提升领域特定视频描述任务表现。我们在1000样本测试集上对比各基线模型在不同描述字段的准确率,SkyCaptioner-V1取得最高平均准确率,在镜头相关字段表现尤为突出。
模型 | Qwen2.5-VL-7B-Ins. | Qwen2.5-VL-72B-Ins. | Tarsier2-Recap-7b | SkyCaptioner-V1 |
---|---|---|---|---|
平均准确率 | 51.4% | 58.7% | 49.4% | 76.3% |
镜头类型 | 76.8% | 82.5% | 60.2% | 93.7% |
镜头角度 | 60.0% | 73.7% | 52.4% | 89.8% |
镜头位置 | 28.4% | 32.7% | 23.6% | 83.1% |
摄像机运动 | 62.0% | 61.2% | 45.3% | 85.3% |
表情 | 43.6% | 51.5% | 54.3% | 68.8% |
主体类型 | 43.5% | 49.7% | 47.6% | 82.5% |
主体子类 | 38.9% | 44.9% | 45.9% | 75.4% |
外观 | 40.9% | 52.0% | 45.6% | 59.3% |
动作 | 32.4% | 52.0% | 69.8% | 68.8% |
位置 | 35.4% | 48.6% | 45.5% | 57.5% |
是否主体 | 58.5% | 68.7% | 69.7% | 80.9% |
环境 | 70.4% | 72.7% | 61.4% | 70.5% |
光照 | 77.1% | 80.0% | 21.2% | 76.5% |
强化学习
受大语言模型成功启发,我们提出通过强化学习提升生成模型表现,重点优化运动质量,因为发现当前模型主要缺陷在于:
- 对大幅可变形运动处理不佳
- 生成视频可能违反物理规律
为避免文本对齐与画质等指标退化,我们确保偏好数据对在这些方面表现相当,仅运动质量存在差异。这使人工作标注成本更高。为此提出半自动流程,结合自动生成运动对与人工作标注结果,通过质量控制提升数据规模与人偏好的对齐度。基于增强数据集,先训练专用奖励模型捕捉配对样本间的运动质量差异,再通过直接偏好优化(DPO)指导生成模型提升运动质量。
扩散强制
我们引入扩散强制Transformer解锁模型生成长视频能力。扩散强制是一种训练与采样策略,每个标记分配独立噪声水平,允许按任意每标记进度去噪。概念上类似部分掩码:零噪声标记完全未掩码,完全噪声则完全掩码。扩散强制训练模型"解掩"任意噪声标记组合,用较干净标记作为条件信息指导恢复噪声标记。基于此,我们的扩散强制Transformer可根据前段末帧无限扩展视频生成。注意同步全序列扩散是扩散强制的特例(所有标记共享相同噪声水平),这使得我们能从全序列扩散模型微调得到扩散强制Transformer。
高质量监督微调(SFT)
我们在540p和720p分辨率分别实施两阶段高质量监督微调(SFT),首阶段SFT在预训练后、强化学习前进行。该阶段作为概念均衡训练器,基于仅使用fps24视频数据的基础模型预训练结果,战略性地移除FPS嵌入组件简化架构。通过高质量概念平衡样本训练,为后续训练过程建立优化初始化参数。之后在完成扩散强制阶段后进行720p高分辨率二次SFT,采用相同损失公式与人工筛选的更高质量概念平衡数据集。该最终精修阶段聚焦分辨率提升,使整体视频质量进一步提高。
性能表现
为全面评估方法,我们构建SkyReels-Bench进行人工评估,并利用开源V-Bench进行自动化评测,与开源及闭源SOTA基线模型对比。
人工评估
设计包含1020条文本提示的SkyReels-Bench,系统评估三个维度:指令遵循、运动质量、一致性与视觉质量,支持文生视频(T2V)和图生视频(I2V)模型的全方位评估。为确保公平,所有模型在默认设置下同分辨率评估,未应用生成后过滤。
- 文生视频模型
模型名称 | 平均分 | 指令遵循 | 一致性 | 视觉质量 | 运动质量 |
---|---|---|---|---|---|
Runway-Gen3 Alpha | 2.53 | 2.19 | 2.57 | 3.23 | 2.11 |
HunyuanVideo-13B | 2.82 | 2.64 | 2.81 | 3.20 | 2.61 |
Kling-1.6 STD模式 | 2.99 | 2.77 | 3.05 | 3.39 | 2.76 |
Hailuo-01 | 3.0 | 2.8 | 3.08 | 3.29 | 2.74 |
Wan2.1-14B | 3.12 | 2.91 | 3.31 | 3.54 | 2.71 |
SkyReels-V2 | 3.14 | 3.15 | 3.35 | 3.34 | 2.74 |
评估显示我们的模型在指令遵循(3.15)上显著领先基线方法,同时在运动质量(2.74)保持竞争力,且不牺牲一致性(3.35)。
- 图生视频模型