nova-d48w1024-osp480开源视频生成模型 - 依文本提示生成、编辑视频

首页

Nova D48w1024 Osp480

由 BAAI 开发

北京智源研究院开发的非量化自回归文本生成视频模型，能够根据文本提示生成和编辑视频

文本生成视频开源协议:Apache-2.0 #文本生成视频 #自回归扩散架构 #高分辨率视频生成

下载量 314

发布时间 : 12/17/2024

模型简介

基于非量化视频自回归扩散架构(NOVA)开发的模型，采用预训练文本编码器(Phi-2)和视频VAE标记器(OpenSoraPlanV1.2-VAE)构建，能够根据文本提示生成和编辑视频

模型特点

高分辨率视频生成

能够生成768x480像素分辨率的视频

文本条件生成

根据文本提示生成和编辑视频内容

参数可调

可通过调整参数提升生成视频的画质

模型能力

文本到视频生成

视频编辑

单帧图像生成

使用案例

研究与教育

生成模型研究

用于生成模型相关技术研究

教育工具开发

开发教育或创意工具

创意与设计

艺术创作

用于艺术创作与设计应用

🚀 NOVA (d48w1024-osp480) 模型卡片

NOVA (d48w1024-osp480) 是一个可基于文本提示生成和修改视频的模型，在视频生成领域具有重要价值。

✨ 主要特性

研发团队：BAAI
模型类型：非量化自回归文本到视频生成模型
模型大小：645M
模型精度：torch.float16 (FP16)
模型分辨率：768x480
模型描述：这是一个可用于基于文本提示生成和修改视频的模型。它是一个非量化视频自回归 (NOVA) 扩散模型，使用了预训练的文本编码器 ([Phi - 2](https://huggingface.co/microsoft/phi - 2)) 和一个 VAE 视频分词器 ([OpenSoraPlanV1.2 - VAE](https://huggingface.co/LanguageBind/Open - Sora - Plan - v1.2.0))。
模型许可证：Apache 2.0 许可证
更多信息资源：GitHub 仓库

📦 安装指南

使用 🤗 的 Diffusers 库可以简单高效地运行 NOVA。

pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://git@github.com/baaivision/NOVA.git

💻 使用示例

基础用法

import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video

model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")

prompt = "Many spotted jellyfish pulsating under water."

image = pipe(prompt, max_latent_length=1).frames[0, 0]
export_to_image(image, "jellyfish.jpg")

video = pipe(prompt, max_latent_length=9).frames[0]
export_to_video(video, "jellyfish.mp4", fps=12)

高级用法

# 增加纵横比和扩散步骤以提高视频质量。
import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video

model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")

prompt = "Many spotted jellyfish pulsating under water."

video = pipe(
  prompt,
  max_latent_length=9,
  num_inference_steps=128,  # default: 64
  num_diffusion_steps=100,  # default: 25
).frames[0]
export_to_video(video, "jellyfish_v2.mp4", fps=12)

📚 详细文档

直接使用

该模型仅用于研究目的。可能的研究领域和任务包括：

生成模型的研究。
教育或创意工具中的应用。
艺术品的生成以及在设计和其他艺术过程中的使用。
探究和理解生成模型的局限性和偏差。
安全部署有可能生成有害内容的模型。

以下是不适用的使用场景。

超出适用范围的使用

该模型并非用于对人物或事件进行事实性或真实性的呈现，因此使用该模型生成此类内容超出了该模型的能力范围。

滥用和恶意使用

使用该模型生成对个人残酷的内容属于对该模型的滥用。这包括但不限于：

错误信息和虚假信息。
严重暴力和血腥场景的呈现。
在未经个人同意的情况下冒充他人。
在可能看到的人未同意的情况下生成色情内容。
违反版权或许可材料使用条款的共享行为。
故意推广或传播歧视性内容或有害刻板印象。
违反版权或许可材料使用条款对其进行修改后的内容共享。
生成对人或其环境、文化、宗教等有贬低、非人化或其他有害的呈现。

局限性和偏差

局限性

模型的自动编码部分存在信息损失。
模型无法渲染复杂的清晰文本。
模型无法实现完美的照片级真实感。
一般情况下，手指等部位可能无法正确生成。
该模型在网络数据集 [LAION - 5B](https://laion.ai/blog/laion - 5b/) 和 [COYO - 700M](https://github.com/kakaobrain/coyo - dataset) 的子集上进行训练，这些数据集包含成人、暴力和色情内容。