df-cpt-mo-di-bear-guitar开源模型 - 根据文本提示生成现代迪士尼风格视频

首页

Df Cpt Mo Di Bear Guitar

由 Tune-A-Video-library 开发

这是一个基于nitrosocke/mo-di-diffusion模型的文本生成视频模型，能够根据文本提示生成现代迪士尼风格的视频内容。

文本生成视频开源协议:Openrail #文本生成视频 #迪士尼风格 #单样本调优

下载量 16

发布时间 : 6/9/2023

模型简介

该模型通过Tune-A-Video技术对基础图像扩散模型进行调优，实现从文本到视频的生成功能，特别擅长生成现代迪士尼风格的动态内容。

模型特点

现代迪士尼风格

能够生成具有现代迪士尼艺术风格的视频内容

文本到视频转换

根据简单的文本提示生成连贯的视频序列

基于Tune-A-Video技术

通过一次性调优实现图像扩散模型到视频生成模型的转换

模型能力

文本生成视频

风格化视频生成

动态内容创作

使用案例

创意内容生成

动画角色表演

生成迪士尼风格角色表演特定动作的视频

示例中展示了公主弹吉他的动画效果

概念演示

快速可视化创意概念

原始训练展示了熊弹吉他的动画

艺术创作

风格化动画

生成特定艺术风格的短视频片段

现代迪士尼风格的动画输出

🚀 Tune-A-Video - 现代迪士尼风格

本项目是一个与Diffusers兼容的模型，可用于文本到视频的生成，基于现代迪士尼风格，通过特定训练提示进行训练，能生成具有特色的视频内容。

🚀 快速开始

本模型是一个与Diffusers兼容的检查点。当与DiffusionPipeline一起使用时，会返回一个TuneAVideoPipeline实例。

df-cpt 用于表示它是Tune-A-Video-library/mo-di-bear-guitar的Diffusers兼容版本。

基础模型：nitrosocke/mo-di-diffusion
训练提示：一只熊在弹吉他。

✨ 主要特性

与Diffusers库兼容，方便集成到现有的扩散模型流程中。
基于现代迪士尼风格，能生成具有该风格特色的视频内容。

💻 使用示例

基础用法

使用现有的文本到图像检查点加载

import torch
from diffusers import TuneAVideoPipeline, DDIMScheduler, UNet3DConditionModel
from diffusers.utils import export_to_video
from PIL import Image

# Use any pretrained Text2Image checkpoint based on stable diffusion
pretrained_model_path = "nitrosocke/mo-di-diffusion"
unet = UNet3DConditionModel.from_pretrained(
    "Tune-A-Video-library/df-cpt-mo-di-bear-guitar", subfolder="unet", torch_dtype=torch.float16
).to("cuda")

pipe = TuneAVideoPipeline.from_pretrained(pretrained_model_path, unet=unet, torch_dtype=torch.float16).to("cuda")

prompt = "A princess playing a guitar, modern disney style"
generator = torch.Generator(device="cuda").manual_seed(42)

video_frames = pipe(prompt, video_length=3, generator=generator, num_inference_steps=50, output_type="np").frames

# Saving to gif.
pil_frames = [Image.fromarray(frame) for frame in video_frames]
duration = len(pil_frames) / 8
pil_frames[0].save(
    "animation.gif",
    save_all=True,
    append_images=pil_frames[1:],  # append rest of the images
    duration=duration * 1000,  # in milliseconds
    loop=0,
)

# Saving to video
video_path = export_to_video(video_frames)

高级用法

加载已保存的Tune-A-Video检查点

import torch
from diffusers import DiffusionPipeline, DDIMScheduler
from diffusers.utils import export_to_video
from PIL import Image

pipe = DiffusionPipeline.from_pretrained(
    "Tune-A-Video-library/df-cpt-mo-di-bear-guitar", torch_dtype=torch.float16
).to("cuda")

prompt = "A princess playing a guitar, modern disney style"
generator = torch.Generator(device="cuda").manual_seed(42)

video_frames = pipe(prompt, video_length=3, generator=generator, num_inference_steps=50, output_type="np").frames

# Saving to gif.
pil_frames = [Image.fromarray(frame) for frame in video_frames]
duration = len(pil_frames) / 8
pil_frames[0].save(
    "animation.gif",
    save_all=True,
    append_images=pil_frames[1:],  # append rest of the images
    duration=duration * 1000,  # in milliseconds
    loop=0,
)

# Saving to video
video_path = export_to_video(video_frames)