Allegro-TI2V开源模型 - 依提示词和图像生成高质量视频内容

首页

Allegro TI2V

由 rhymes-ai 开发

Allegro-TI2V是一个开源的文本-图像生成视频模型，能够根据用户提供的提示词和输入图像生成高质量视频内容。

文本生成视频英语开源协议:Apache-2.0 #图像生成视频 #高分辨率视频生成 #首尾帧插值

下载量 50

发布时间 : 11/21/2024

模型简介

Allegro-TI2V是一个基于扩散模型的视频生成工具，支持从单张图像或首尾帧图像生成中间视频内容，适用于多种动态场景创作。

模型特点

开源模型

完整模型权重和代码已公开，采用Apache 2.0许可证

多样化内容创作

支持生成从人物/动物特写到各类动态场景的广泛内容

多模式输入

支持基于首帧图像或首尾帧图像生成视频内容

高质量输出

可生成720x1280分辨率、15 FPS的6秒视频，支持插帧至30 FPS

轻量高效

BF16模式下启用CPU卸载时显存占用仅9.3GB

模型能力

文本到视频生成

图像到视频生成

高分辨率视频生成

动态场景创作

使用案例

创意内容制作

动画短片创作

根据首帧图像和提示词生成后续动画内容

6秒720x1280分辨率视频

场景过渡效果

根据首尾帧图像生成中间过渡动画

平滑的场景转换效果

教育演示

科学过程可视化

将静态科学图表转化为动态演示视频

生动直观的教学材料

🚀 Allegro - 图像到视频生成模型

Allegro是一款强大的图像到视频生成模型，它能够根据用户提供的文本提示和图像生成高质量的视频。该模型具有开源、多功能、高质量输出等特点，为视频内容创作提供了新的可能性。

画廊 · GitHub · 博客 · 论文 · Discord

🖼️ 画廊

如需更多演示和相应的提示，请查看 Allegro画廊。

✨ 主要特性

开源：完整的模型权重和代码向社区开放，采用Apache 2.0许可证！
多功能内容创作：能够生成广泛的内容，从人类和动物的特写镜头到各种动态场景。
文本 - 图像到视频生成：根据用户提供的提示和图像生成视频。支持的输入类型包括：
- 根据用户提示和第一帧图像生成后续视频内容。
- 根据用户提示以及第一帧和最后一帧图像生成中间视频内容。
高质量输出：以15 FPS的帧率生成6秒的详细视频，分辨率为720x1280，可使用 EMA-VFI 插值到30 FPS。
小巧高效：采用1.75亿参数的VideoVAE和28亿参数的VideoDiT模型。支持多种精度（FP32、BF16、FP16），在BF16模式下使用CPU卸载时，仅需9.3 GB的GPU内存。上下文长度为79.2K，相当于88帧。

📋 模型信息

属性	详情
模型类型	Allegro-TI2V（文本 - 图像到视频生成模型）、Allegro（文本到视频生成模型）
下载地址	Hugging Face、Hugging Face
参数	VAE: 1.75亿；DiT: 28亿
推理精度	VAE: FP32/TF32/BF16/FP16（FP32/TF32最佳）；DiT/T5: BF16/FP32/TF32
上下文长度	79.2K
分辨率	720 x 1280
帧数	88
视频长度	6秒 @ 15 FPS
单GPU内存使用量	9.3G BF16（带CPU卸载）
推理时间	20分钟（单H100） / 3分钟（8xH100）

🚀 快速开始

下载 Allegro GitHub代码。
安装必要的依赖项。
- 确保Python >= 3.10，PyTorch >= 2.4，CUDA >= 12.4。详情请参阅 requirements.txt。
- 建议使用Anaconda创建一个新的环境（Python >= 3.10）来运行以下示例。
下载 Allegro-TI2V模型权重。

运行推理。

python single_inference_ti2v.py \
--user_prompt 'The car drives along the road.' \
--first_frame your/path/to/first_frame_image.png \
--vae your/path/to/vae \
--dit your/path/to/transformer \
--text_encoder your/path/to/text_encoder \
--tokenizer your/path/to/tokenizer \
--guidance_scale 8 \
--num_sampling_steps 100 \
--seed 1427329220

输出视频的分辨率固定为720 × 1280。不同分辨率的输入图像将自动裁剪和调整大小以适应。

参数	描述
`--user_prompt`	[必需] 图像到视频生成的文本输入。
`--first_frame`	[必需] 图像到视频生成的第一帧图像输入。
`--last_frame`	[可选] 如果提供，模型将根据指定的第一帧和最后一帧图像生成中间视频内容。
`--enable_cpu_offload`	[可选] 将模型卸载到CPU以降低GPU内存成本（约9.3G，相比未启用CPU卸载时的27.5G），但推理时间将显著增加。