VidXTend开源视频扩展模型 - 免费部署为动画增加视频时长

首页

Vidxtend

由 benjamin-paine 开发

VidXTend是StreamingT2V第二阶段精简封装的视频扩展流程，用于将16帧256x256像素动画每次扩展8帧（8fps下扩展1秒时长）

视频处理开源协议:MIT #视频帧扩展 #动态视频生成 #8fps优化

下载量 53

发布时间 : 4/8/2024

模型简介

基于StreamingT2V研究的视频扩展模型，专注于从已有视频片段生成连贯的后续帧序列

模型特点

时序一致性保持

能够生成与输入视频保持时序一致性的扩展帧

高效扩展

每次可扩展8帧视频（8fps下相当于1秒时长）

灵活输入

支持256x256分辨率的16帧输入视频扩展

模型能力

视频帧扩展

基于文本引导的视频生成

时序一致性视频合成

使用案例

视频制作

短视频扩展

为短视频自动生成后续内容

保持原始视频风格和内容的连贯扩展

动画制作

基于初始动画片段自动生成后续帧

减少动画制作工作量

🚀 流式文本到视频扩展模型VidXTend

本仓库包含了 StreamingT2V 第二阶段的精简独立管道，名为 "VidXTend"。该模型主要用于每次将 16 帧、分辨率为 256px x 256px 的动画扩展 8 帧（在 8fps 帧率下为 1 秒）。

引用信息

@article{henschel2024streamingt2v,
  title={StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text},
  author={Henschel, Roberto and Khachatryan, Levon and Hayrapetyan, Daniil and Poghosyan, Hayk and Tadevosyan, Vahram and Wang, Zhangyang and Navasardyan, Shant and Shi, Humphrey},
  journal={arXiv preprint arXiv:2403.14773},
  year={2024}
}

代码仓库

https://github.com/Picsart-AI-Research/StreamingT2V

🚀 快速开始

✨ 主要特性

专门用于扩展 16 帧、256px x 256px 动画，每次扩展 8 帧。
提供命令行工具和 Python 接口，方便使用。

📦 安装指南

首先，将 VidXTend 包安装到你的 Python 环境中。如果你要为 VidXTend 创建一个新环境，请确保指定支持 CUDA 的 torch 版本，否则模型将仅在 CPU 上运行。

pip install git+https://github.com/painebenjamin/vidxtend.git

💻 使用示例

命令行使用

安装包时会同时安装命令行工具 vidxtend。

Usage: vidxtend [OPTIONS] VIDEO PROMPT

  在视频文件上运行 VidXtend，将生成的帧连接到视频末尾。

Options:
  -fps, --frame-rate INTEGER      视频帧率。默认为输入视频的帧率。
  -s, --seconds FLOAT             要添加到视频中的总秒数。将此数字乘以帧率以确定生成的新帧总数。  [default: 1.0]
  -np, --negative-prompt TEXT     扩散过程的负提示词。
  -cfg, --guidance-scale FLOAT    扩散过程的引导比例。  [default: 7.5]
  -ns, --num-inference-steps INTEGER
                                  扩散步骤数。  [default: 50]
  -r, --seed INTEGER              随机种子。
  -m, --model TEXT                HuggingFace 模型名称。
  -nh, --no-half                  不使用半精度。
  -no, --no-offload               不将模型卸载到 CPU 以保留 GPU 内存。
  -ns, --no-slicing               不使用 VAE 切片。
  -g, --gpu-id INTEGER            要使用的 GPU ID。
  -sf, --model-single-file        下载并使用单个文件而不是目录。
  -cf, --config-file TEXT         使用单文件模型选项时要使用的配置文件。接受路径或与单文件在同一目录中的文件名。如果未提供，将从模型选项中传递的存储库下载。  [default: config.json]
  -mf, --model-filename TEXT      使用单文件模型选项时要下载的模型文件。  [default: vidxtend.safetensors]
  -rs, --remote-subfolder TEXT    使用单文件模型选项时要从中下载的远程子文件夹。
  -cd, --cache-dir DIRECTORY      下载的缓存目录。默认使用 huggingface 缓存。
  -o, --output FILE               输出文件。  [default: output.mp4]
  -f, --fit [actual|cover|contain|stretch]
                                  图像适配模式。  [default: cover]
  -a, --anchor [top-left|top-center|top-right|center-left|center-center|center-right|bottom-left|bottom-center|bottom-right]
                                  图像锚点。  [default: top-left]
  --help                          显示此消息并退出。

Python 使用

你可以创建管道，自动从本仓库拉取权重，有以下两种方式：

基础用法

作为独立模型：

from vidxtend import VidXTendPipeline
pipeline = VidXTendPipeline.from_pretrained(
  "benjamin-paine/vidxtend",
  torch_dtype=torch.float16,
  variant="fp16",
)

高级用法

作为单个文件：

from vidxtend import VidXTendPipeline
pipeline = VidXTendPipeline.from_single_file(
  "benjamin-paine/vidxtend",
  torch_dtype=torch.float16,
  variant="fp16",
)

使用以下方法提高性能：

pipeline.enable_model_cpu_offload()
pipeline.enable_vae_slicing()
pipeline.set_use_memory_efficient_attention_xformers()

使用示例如下：

# 假设 images 是一个 PIL 图像列表

new_frames = pipeline(
    prompt=prompt,
    negative_prompt=None, # 可选地使用负提示词
    image=images[-8:], # 使用视频的最后 8 帧
    input_frames_conditioning=images[:1], # 使用视频的第一帧
    eta=1.0,
    guidance_scale=7.5,
    output_type="pil"
).frames[8:] # 从输出中移除前 8 帧，因为它们被用作最后 8 帧的引导