AnimateDiff-Lightning开源视频生成模型 - 超高速让文本秒变视频

首页

Animatediff Lightning

由 JCTN 开发

超高速文本生成视频模型，生成速度比原版AnimateDiff快十倍以上

文本生成视频开源协议:Openrail #超高速视频生成 #跨模型蒸馏 #文本转视频

下载量 282

发布时间 : 3/21/2024

模型简介

AnimateDiff-Lightning是一款基于AnimateDiff SD1.5 v2蒸馏得到的超高速文本生成视频模型，支持1步、2步、4步和8步推理，特别适合视频风格转换和动态内容生成。

模型特点

超高速生成

比原版AnimateDiff快10倍以上的生成速度

多步推理支持

提供1步、2步、4步和8步蒸馏模型检查点，满足不同质量需求

跨模型兼容性

可与多种风格化基础模型配合使用，包括写实和动漫风格

视频风格转换

特别适合基于ControlNet的视频到视频风格转换应用

模型能力

文本生成视频

视频风格转换

动态内容生成

快速推理

使用案例

创意内容生成

短视频创作

根据文本提示快速生成创意短视频内容

可在几秒内生成高质量短视频

动画制作

生成动漫风格的动画片段

支持多种动漫风格基础模型

视频编辑

视频风格转换

将实拍视频转换为不同艺术风格

保持原始视频动态的同时改变视觉风格

🚀 AnimateDiff-Lightning

AnimateDiff-Lightning是一款闪电般快速的文本到视频生成模型，它生成视频的速度比原始的AnimateDiff快十倍以上。本模型作为研究成果发布，更多信息请参考我们的研究论文：AnimateDiff-Lightning: Cross-Model Diffusion Distillation。

🚀 快速开始

你可以通过以下方式快速体验AnimateDiff-Lightning：

试用我们的文本到视频生成演示。
按照下文的使用示例进行操作。

✨ 主要特性

高速生成：相比原始的AnimateDiff，生成视频的速度快十倍以上。
多步选择：提供1步、2步、4步和8步蒸馏模型的检查点。
高质量输出：2步、4步和8步模型的生成质量出色。
广泛适配：与多种风格化基础模型兼容，适用于不同场景。

📦 安装指南

本模型的使用依赖于一些Python库，你可以通过以下命令安装：

pip install diffusers torch safetensors huggingface_hub

💻 使用示例

基础用法

以下是使用Diffusers库调用AnimateDiff-Lightning的示例代码：

import torch
from diffusers import AnimateDiffPipeline, MotionAdapter, EulerDiscreteScheduler
from diffusers.utils import export_to_gif
from huggingface_hub import hf_hub_download
from safetensors.torch import load_file

device = "cuda"
dtype = torch.float16

step = 4  # Options: [1,2,4,8]
repo = "ByteDance/AnimateDiff-Lightning"
ckpt = f"animatediff_lightning_{step}step_diffusers.safetensors"
base = "emilianJR/epiCRealism"  # Choose to your favorite base model.

adapter = MotionAdapter().to(device, dtype)
adapter.load_state_dict(load_file(hf_hub_download(repo ,ckpt), device=device))
pipe = AnimateDiffPipeline.from_pretrained(base, motion_adapter=adapter, torch_dtype=dtype).to(device)
pipe.scheduler = EulerDiscreteScheduler.from_config(pipe.scheduler.config, timestep_spacing="trailing", beta_schedule="linear")

output = pipe(prompt="A girl smiling", guidance_scale=1.0, num_inference_steps=step)
export_to_gif(output.frames[0], "animation.gif")

ComfyUI使用方法

下载animatediff_lightning_workflow.json并在ComfyUI中导入。
安装节点。你可以手动安装或使用ComfyUI-Manager：
- ComfyUI-AnimateDiff-Evolved
- ComfyUI-VideoHelperSuite
下载你喜欢的基础模型检查点并将其放在/models/checkpoints/目录下。
下载AnimateDiff-Lightning检查点animatediff_lightning_Nstep_comfyui.safetensors并将其放在/custom_nodes/ComfyUI-AnimateDiff-Evolved/models/目录下。

ComfyUI Workflow

视频到视频生成

AnimateDiff-Lightning在视频到视频生成方面表现出色。以下是使用ControlNet的简单ComfyUI工作流程：

下载animatediff_lightning_v2v_openpose_workflow.json并在ComfyUI中导入。
安装节点。你可以手动安装或使用ComfyUI-Manager：
下载你喜欢的基础模型检查点并将其放在/models/checkpoints/目录下。
下载AnimateDiff-Lightning检查点animatediff_lightning_Nstep_comfyui.safetensors并将其放在/custom_nodes/ComfyUI-AnimateDiff-Evolved/models/目录下。
下载ControlNet OpenPose control_v11p_sd15_openpose.pth检查点到/models/controlnet/目录下。
上传你的视频并运行管道。

额外注意事项

视频不应过长或分辨率过高。我们使用576x1024、8秒、30fps的视频进行测试。
设置帧率以匹配输入视频，这样可以使音频与输出视频匹配。
DWPose在首次运行时会自行下载检查点。
DWPose可能会在UI中卡住，但管道实际上仍在后台运行。请检查ComfyUI日志和输出文件夹。

ComfyUI OpenPose Workflow

📚 详细文档

使用建议

尝试不同的设置。我们发现2步模型使用3次推理步骤可以产生很好的效果。
某些基础模型与CFG配合使用效果更好。
推荐使用Motion LoRAs，它们可以产生更强的运动效果。我们使用强度为0.7~0.8的Motion LoRAs以避免水印。

📄 许可证

本项目采用creativeml-openrail-m许可证。

🔖 引用

如果您使用了本项目的成果，请引用以下论文：

@misc{lin2024animatedifflightning,
      title={AnimateDiff-Lightning: Cross-Model Diffusion Distillation}, 
      author={Shanchuan Lin and Xiao Yang},
      year={2024},
      eprint={2403.12706},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}