license: apache-2.0
language:
- en
library_name: diffusers
pipeline_tag: text-to-video
作品集 · GitHub · 博客 · 论文 · Discord · 加入候补名单(Discord抢先体验!)
作品集
更多演示及对应提示词请访问Allegro作品集。
核心特性
- 开源共享:完整模型权重与代码已开放,采用Apache 2.0协议!
- 多元创作:支持生成人类/动物特写到多样化动态场景的广泛内容。
- 高清输出:可生成368x640和720x1280分辨率、15帧率的2-6秒精细视频,通过EMA-VFI可插帧至30帧。
- 轻量高效:包含1.75亿参数VideoVAE与28亿参数VideoDiT模型。支持多精度(FP32/BF16/FP16),BF16模式配合CPU卸载仅需9.3GB显存。上下文长度达79.2K(相当于88帧)。
模型信息
模型 |
Allegro-T2V-40x360P |
描述 |
文本生成视频模型 |
下载 |
Hugging Face |
参数量 |
VAE:1.75亿 |
DiT:28亿 |
推理精度 |
VAE:FP32/TF32/BF16/FP16(推荐FP32/TF32) |
DiT/T5:BF16/FP32/TF32 |
上下文长度 |
9.2K |
分辨率 |
368×640 |
帧数 |
40 |
视频时长 |
约3秒@15帧率 |
快速开始
-
安装依赖环境
- 需Python≥3.10、PyTorch≥2.4、CUDA≥12.4
- 建议通过Anaconda创建新环境(Python≥3.10):
conda create -n rllegro python=3.10 -y
- 执行:
pip install git+https://github.com/huggingface/diffusers.git torch==2.4.1 transformers==4.40.1 accelerate sentencepiece imageio imageio-ffmpeg beautifulsoup4
-
运行推理
import torch
from diffusers import AutoencoderKLAllegro, AllegroPipeline
from diffusers.utils import export_to_video
vae = AutoencoderKLAllegro.from_pretrained("rhymes-ai/Allegro-T2V-40x360P", subfolder="vae", torch_dtype=torch.float32)
vae.tile_overlap_t = 8
vae.tile_overlap_h = 144
vae.tile_overlap_w = 64
vae.stride = (16,112,192)
pipe = AllegroPipeline.from_pretrained(
"rhymes-ai/Allegro-T2V-40x360P", vae=vae, torch_dtype=torch.bfloat16
)
pipe.to("cuda")
pipe.vae.enable_tiling()
prompt = "阳光明媚的海港,波光粼粼的海面上停泊着各式船只。航拍视角下,大小颜色各异的船只或移动或静止,渔船的存在暗示这里可能是热门渔港。"
positive_prompt = """
(大师级作品),(最佳质量),(超精细),(无水印),
{}
情感丰富,和谐统一,渐晕效果,4K史诗级细节,柯达胶片质感,35mm胶片,
精准对焦,高预算,宽银幕电影风格,氛围感,史诗级,惊艳视觉
"""
negative_prompt = """
NSFW内容,低分辨率,结构畸形,手部畸形,文字,错误,缺指,多指,少指,裁剪痕迹,最差质量,
低质量,普通质量,JPEG伪影,签名,水印,用户名,模糊
"""
prompt = prompt.format(prompt.lower().strip())
video = pipe(prompt, negative_prompt=negative_prompt, guidance_scale=7.5, max_sequence_length=512, num_inference_steps=100, generator = torch.Generator(device="cuda:0").manual_seed(42)).frames[0]
export_to_video(video, "output.mp4", fps=15)
使用pipe.enable_sequential_cpu_offload()
可启用CPU卸载减少显存占用,但会显著增加推理时间。
-
(可选)视频插帧
推荐使用EMA-VFI将15帧视频插值至30帧。
为获得最佳画质,建议通过imageio保存视频。
-
更快的推理方案(如上下文并行/PAB)请参考GitHub仓库。
许可协议
本项目采用Apache 2.0开源协议。