AnimateDiff Motion Adapter v1-4开源模型 - 免费利用Stable Diffusion生成视频

首页

Animatediff Motion Adapter V1 4

由 guoyww 开发

AnimateDiff是一种能够利用现有Stable Diffusion文生图模型创建视频的方法

文本生成视频 #文生视频转换 #运动模块扩展 #Stable Diffusion适配

下载量 48

发布时间 : 11/1/2023

模型简介

该方法通过向冻结的文生图模型中插入运动模块层，并在视频片段上进行训练以提取运动先验知识来实现这一功能。这些运动模块被应用于Stable Diffusion UNet中的ResNet和注意力块之后，其目的是在图像帧之间引入连贯的运动。

模型特点

运动模块插入

通过向冻结的文生图模型中插入运动模块层，实现图像帧间的连贯运动

兼容现有模型

可以与现有的Stable Diffusion文生图模型配合使用，无需重新训练整个模型

运动先验知识提取

通过在视频片段上进行训练来提取运动先验知识

内存优化

支持VAE切片和模型CPU卸载等内存优化技术

模型能力

文本到视频生成

静态图像动画化

连贯运动生成

使用案例

创意内容生成

日落场景动画

将静态日落场景转换为具有连贯运动的动画

生成16帧的日落动画，包含渔船、海浪和海鸥等动态元素

艺术创作

艺术动画创作

基于文本描述生成艺术风格的动画短片

🚀 扩散器（diffusers）文本到视频库

AnimateDiff 是一种方法，它允许你使用现有的稳定扩散（Stable Diffusion）文本到图像模型来创建视频。它通过将运动模块层插入到一个冻结的文本到图像模型中，并在视频片段上进行训练以提取运动先验来实现这一目标。

这些运动模块被应用于稳定扩散 UNet 中的残差网络（ResNet）和注意力块之后。它们的目的是在图像帧之间引入连贯的运动。为了支持这些模块，我们引入了运动适配器（MotionAdapter）和 UNet 运动模型（UNetMotionModel）的概念。这些为在现有的稳定扩散模型中使用这些运动模块提供了一种便捷的方式。

属性	详情
库名称	扩散器（diffusers）
管道标签	文本到视频

示例展示

杰作，最高画质，日落。

🚀 快速开始

以下示例展示了如何将运动模块与现有的稳定扩散文本到图像模型结合使用。

💻 使用示例

基础用法

import torch
from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
from diffusers.utils import export_to_gif

# 加载运动适配器
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-4")
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter)
scheduler = DDIMScheduler.from_pretrained(
    model_id, subfolder="scheduler", clip_sample=False, timestep_spacing="linspace", steps_offset=1
)
pipe.scheduler = scheduler

# 启用内存节省
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt=(
        "masterpiece, bestquality, highlydetailed, ultradetailed, sunset, "
        "orange sky, warm lighting, fishing boats, ocean waves seagulls, "
        "rippling water, wharf, silhouette, serene atmosphere, dusk, evening glow, "
        "golden hour, coastal landscape, seaside scenery"
    ),
    negative_prompt="bad quality, worse quality",
    num_frames=16,
    guidance_scale=7.5,
    num_inference_steps=25,
    generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")