ltxv-spatial-upscaler-0.9.7开源视频工具 - 提升LTX视频模型空间分辨率

首页

Ltxv Spatial Upscaler 0.9.7

由 Lightricks 开发

基于扩散模型的视频空间分辨率增强工具，专门针对LTX视频模型生成的潜在视频表示进行超分辨率训练

图像增强英语开源协议:其他 #视频超分辨率 #潜在扩散增强 #实时高清生成

下载量 316

发布时间 : 5/14/2025

模型简介

该模型是LTX视频生成模型的配套组件，用于提升生成视频的空间分辨率，可与LTX-Video-0.9.7系列模型配合使用

模型特点

高分辨率输出

能将LTX视频模型生成的潜在视频帧提升至高分辨率

实时处理能力

设计用于实时处理，支持高质量视频生成

兼容性

专为与LTX-Video-0.9.7系列模型配合使用而优化

分辨率优化

在720×1280以下分辨率及257帧以下效果最佳

模型能力

视频超分辨率

潜在视频帧增强

视频质量提升

使用案例

视频增强

视频生成后处理

对LTX视频模型生成的视频进行分辨率提升

获得更高清晰度的输出视频

内容创作

高清视频内容生成

配合LTX视频模型生成高质量视频内容

生成1216×704分辨率、30帧/秒的高清视频

🚀 LTX视频空间上采样器0.9.7模型卡片

LTX视频空间上采样器0.9.7是一款与LTX-Video生成模型协同工作的组件模型。主LTX-Video代码库可在此处获取。

LTX-Video是首个基于DiT的视频生成模型，能够实时生成高质量视频。它以1216×704分辨率、30 FPS的速度生成视频，其速度之快甚至让人来不及观看。该模型在大规模多样化视频数据集上进行训练，能够生成具有逼真且丰富内容的高分辨率视频。我们为文本到视频以及图像+文本到视频的用例都提供了相应模型。

LTX视频空间上采样器 是一个基于扩散的模型，用于提升视频的空间分辨率。它专门针对提升LTX视频模型生成的视频潜在表示进行训练。

示例动画

示例1	示例2	示例3	示例4
一位留着棕色长发、皮肤白皙的女子对着另一位留着金色长发的女子微笑…… 一位留着棕色长发、皮肤白皙的女子对着另一位留着金色长发的女子微笑。留着棕色头发的女子穿着黑色夹克，右脸颊上有一颗几乎难以察觉的小痣。拍摄角度为特写，聚焦在留着棕色头发的女子脸上。光线温暖自然，可能来自夕阳，给场景披上了一层柔和的光芒。该场景似乎是真实生活的片段。	夜晚，一名女子从停在城市街道上的白色吉普车前走开…… 夜晚，一名女子从停在城市街道上的白色吉普车前走开，然后走上楼梯并敲门。这名女子穿着深色夹克和牛仔裤，背对着镜头从停在街道左侧的吉普车前走开；她步伐稳健，手臂在身体两侧微微摆动；街道灯光昏暗，路灯在潮湿的路面上投下一片片光影；一名穿着深色夹克和牛仔裤的男子从相反方向走过吉普车；镜头从后面跟随女子走上通往一座绿色门建筑的楼梯；她走到楼梯顶部向左转，继续朝建筑走去；她走到门口，用右手敲门；镜头保持静止，聚焦在门口；该场景是真实生活的片段。	一位梳着发髻、穿着带亮片黑色连衣裙和珍珠耳环的金发女子…… 一位梳着发髻、穿着带亮片黑色连衣裙和珍珠耳环的金发女子面带悲伤地低头。镜头保持静止，聚焦在女子脸上。光线昏暗，在她脸上投下柔和的阴影。该场景似乎来自电影或电视剧。	镜头扫过一片被雪覆盖的山脉…… 镜头扫过一片被雪覆盖的山脉，展现出一片广阔的雪山和山谷。山脉被厚厚的积雪覆盖，有些地方几乎呈白色，而有些地方则略带灰色调。山峰参差不齐，有的高耸入云，有的则较为圆润。山谷又深又窄，陡峭的山坡也被雪覆盖。前景中的树木大多光秃秃的，只有少数树枝上还留着几片叶子。天空阴沉沉的，厚厚的云层遮住了太阳。整体给人一种宁静祥和的感觉，被雪覆盖的山脉见证了大自然的力量和美丽。
示例5	示例6	示例7	示例8
一位皮肤白皙、穿着蓝色夹克和带面纱黑帽子的女子…… 一位皮肤白皙、穿着蓝色夹克和带面纱黑帽子的女子向下看向右侧，然后在说话时抬起头。她留着棕色发髻，浅棕色眉毛，夹克里面穿着白色领口衬衫；她说话时镜头一直对着她的脸；背景模糊，但可以看到树木和穿着古装的人；该场景是真实生活的片段。	一个男人在光线昏暗的房间里对着一部老式电话说话…… 一个男人在光线昏暗的房间里对着一部老式电话说话，挂断电话后，悲伤地低下头。他用右手将黑色旋转电话贴在右耳旁，左手拿着一个装有琥珀色液体的岩石杯。他穿着棕色西装外套，里面是白色衬衫，左手无名指上戴着一枚金戒指。他的短发梳理得很整齐，皮肤白皙，眼睛周围有明显的皱纹。镜头保持静止，聚焦在他的脸和上半身。房间很暗，只有左边屏幕外的一个暖光源照亮，在他身后的墙上投下阴影。该场景似乎来自一部电影。	一名狱警打开牢房的门…… 一名狱警打开牢房的门，发现一个年轻人和一个女人坐在桌子旁。狱警穿着左胸带有徽章的深蓝色制服，用右手拿着钥匙打开牢房门并拉开；他留着棕色短发，皮肤白皙，表情平淡。年轻人穿着黑白条纹衬衫，坐在铺着白色桌布的桌子前，面向女人；他留着棕色短发，皮肤白皙，表情平淡。女人穿着深蓝色衬衫，坐在年轻人对面，脸转向他；她留着金色短发，皮肤白皙。镜头保持静止，从稍偏右的中等距离捕捉场景。房间光线昏暗，一盏灯具照亮了桌子和两个人物。墙壁由巨大的灰色混凝土块构成，背景中可以看到一扇金属门。该场景是真实生活的片段。	一位脸上有血、穿着白色背心的女子…… 一位脸上有血、穿着白色背心的女子向下看向右侧，然后在说话时抬起头。她深色头发向后梳，皮肤白皙，脸和胸部都沾满了血。拍摄角度为特写，聚焦在女子的脸和上半身。光线昏暗且偏蓝色调，营造出一种忧郁而紧张的氛围。该场景似乎来自电影或电视剧。
示例9	示例10	示例11	示例12
一位头发花白、留着胡须、穿着灰色衬衫的男子…… 一位头发花白、留着胡须、穿着灰色衬衫的男子向下看向右侧，然后向左转头。拍摄角度为特写，聚焦在男子脸上。光线昏暗，带有绿色色调。该场景似乎是真实生活的片段。	一条清澈的蓝绿色河流穿过岩石峡谷…… 一条清澈的蓝绿色河流穿过岩石峡谷，从一个小瀑布上倾泻而下，在底部形成一个水潭。河流是场景的主要焦点，清澈的河水倒映着周围的树木和岩石。峡谷壁陡峭多石，上面生长着一些植被。树木大多是松树，绿色的针叶与棕色和灰色的岩石形成鲜明对比。整个场景给人一种宁静祥和的感觉。	一名穿着西装的男子走进房间，与坐在沙发上的两名女子交谈…… 一名穿着西装的男子走进房间，与坐在沙发上的两名女子交谈。男子穿着配有金色领带的深色西装，从左边进入房间，朝画面中心走去。他留着灰色短发，皮肤白皙，表情严肃。他走近沙发时，右手放在椅子背上。背景中，两名女子坐在浅色沙发上。左边的女子穿着浅蓝色毛衣，留着金色短发。右边的女子穿着白色毛衣，也留着金色短发。镜头保持静止，男子进入房间时聚焦在他身上。房间光线明亮，温暖的色调在墙壁和家具上反射。该场景似乎来自电影或电视剧。	海浪拍打着海岸线参差不齐的岩石…… 海浪拍打着海岸线参差不齐的岩石，激起高高的浪花。岩石呈深灰色，边缘锋利，有很深的裂缝。海水是清澈的蓝绿色，海浪拍打岩石的地方泛起白色泡沫。天空是浅灰色的，地平线上点缀着几朵白云。
示例13	示例14	示例15	示例16
镜头扫过一座有圆形建筑的城市景观…… 镜头扫过一座有圆形建筑的城市景观。镜头从左向右移动，展示了建筑物的顶部和位于中心的圆形建筑。建筑物有各种灰色和白色调，圆形建筑有绿色屋顶。拍摄角度较高，俯瞰着城市。光线明亮，太阳从左上方照射，建筑物投下阴影。该场景是计算机生成的图像。	一名男子走向窗户，向外张望，然后转身…… 一名男子走向窗户，向外张望，然后转身。他留着黑色短发，皮肤黝黑，穿着棕色外套，围着红灰色围巾。他从左向右走向窗户，目光盯着外面的某个东西。镜头从后面以中等距离跟随他。房间光线明亮，白色墙壁，一扇大窗户被白色窗帘遮住。他走近窗户时，头微微向左转，然后又向右转。然后他整个身体向右转，面向窗户。他站在窗户前时，镜头保持静止。该场景是真实生活的片段。	两名穿着深蓝色制服和配套帽子的警察…… 两名穿着深蓝色制服和配套帽子的警察从画面左侧的门口进入一个光线昏暗的房间。第一名警察留着棕色短发和小胡子，先走进来，后面跟着他的搭档，搭档剃着光头，留着山羊胡。两名警察表情严肃，步伐稳健地向房间深处走去。镜头保持静止，他们进来时从稍低的角度捕捉他们。房间有裸露的砖墙和波纹金属天花板，背景中可以看到一扇带栅栏的窗户。光线较暗，在警察脸上投下阴影，突出了严峻的氛围。该场景似乎来自电影或电视剧。	一位留着棕色短发、穿着栗色无袖上衣的女子…… 一位留着棕色短发、穿着栗色无袖上衣和银色项链的女子边说话边穿过房间，然后一位留着粉色头发、穿着白色衬衫的女子出现在门口大喊。第一位女子从左向右走，表情严肃；她皮肤白皙，眉毛微微皱起。第二位女子站在门口，张着嘴大喊；她皮肤白皙，眼睛睁得很大。房间光线昏暗，背景中可以看到一个书架。镜头跟随第一位女子走动，然后切换到第二位女子脸部的特写。该场景是真实生活的片段。

此上采样器模型与以下两个模型兼容，可用于提升它们生成的视频输出质量：

Lightricks/LTX-Video-0.9.7-dev
Lightricks/LTX-Video-0.9.7-distilled

🚀 快速开始

模型详情

属性	详情
开发者	Lightricks
模型类型	潜在扩散视频空间上采样器
输入	来自LTX视频模型的潜在视频帧
输出	更高分辨率的潜在视频帧
兼容性	可与 `Lightricks/LTX-Video-0.9.7-dev` 和 `Lightricks/LTX-Video-0.9.7-distilled` 一起使用

使用方法

直接使用

你可以在以下许可证规定的范围内使用该模型：

2B版本0.9：许可证
2B版本0.9.1：许可证
2B版本0.9.5：许可证
2B版本0.9.6-dev：许可证
2B版本0.9.6-distilled：许可证
13B版本0.9.7-dev：许可证
13B版本0.9.7-dev-fp8：许可证
13B版本0.9.7-distilled：许可证
13B版本0.9.7-distilled-fp8：许可证
13B版本0.9.7-distilled-lora128：许可证
时间上采样器版本0.9.7：许可证
空间上采样器版本0.9.7：许可证

一般提示

⚠️ 重要提示

该模型适用于分辨率能被32整除且帧数能被8 + 1（例如257）整除的情况。如果分辨率或帧数不能被32或8 + 1整除，输入将用 -1 填充，然后裁剪到所需的分辨率和帧数。

该模型在分辨率低于720 x 1280且帧数少于257时效果最佳。

提示词应该用英文，越详细越好。好的提示词示例如下：The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.

在线演示

可通过以下链接立即访问该模型：

ComfyUI

要在ComfyUI中使用我们的模型，请遵循专用ComfyUI仓库中的说明。

本地运行

安装

代码库在Python 3.10.5、CUDA版本12.2环境下进行了测试，支持PyTorch >= 2.1.2。

git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video

# 创建环境
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]

推理

要使用我们的模型，请遵循 inference.py 中的推理代码：

Diffusers🧨

LTX Video与 Diffusers Python库兼容，支持文本到视频和图像到视频的生成。

在尝试以下示例之前，请确保安装了 diffusers。

pip install -U git+https://github.com/huggingface/diffusers

LTX视频空间上采样器可通过 diffusers 库中的 LTXLatentUpsamplePipeline 使用，它是多阶段生成过程的一部分。

以下是一个示例，展示了如何将空间上采样器与基础LTX视频模型（'dev' 或 'distilled' 版本）结合使用：

import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video, load_image

# 选择你的基础LTX视频模型：
# base_model_id = "Lightricks/LTX-Video-0.9.7-dev"
base_model_id = "Lightricks/LTX-Video-0.9.7-distilled" # 本示例使用distilled版本

# 0. 加载基础模型和上采样器
pipe = LTXConditionPipeline.from_pretrained(base_model_id, torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained(
    "Lightricks/ltxv-spatial-upscaler-0.9.7",
    vae=pipe.vae, 
    torch_dtype=torch.bfloat16
)
pipe.to("cuda")
pipe_upsample.to("cuda")

def round_to_nearest_resolution_acceptable_by_vae(height, width):
    height = height - (height % pipe.vae_temporal_compression_ratio)
    width = width - (width % pipe.vae_temporal_compression_ratio)
    return height, width

video = load_video(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cosmos/cosmos-video2world-input-vid.mp4"
)[:21]  # 仅使用前21帧作为条件
condition1 = LTXVideoCondition(video=video, frame_index=0)

prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 768, 1152
downscale_factor = 2 / 3
num_frames = 161

# 第一部分. 以较小分辨率生成视频
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
downscaled_height, downscaled_width = round_to_nearest_resolution_acceptable_by_vae(downscaled_height, downscaled_width)

latents = pipe(
    conditions=[condition1],
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=downscaled_width,
    height=downscaled_height,
    num_frames=num_frames,
    num_inference_steps=30,
    generator=torch.Generator().manual_seed(0),
    output_type="latent",
).frames

# 第二部分. 使用潜在上采样器以较少的推理步骤对生成的视频进行上采样
# 可用的潜在上采样器将高度/宽度上采样2倍
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
    latents=latents,
    output_type="latent"
).frames

# 第三部分. 对经过上采样的视频进行少量步骤的去噪以改善纹理（可选，但推荐）
video = pipe(
    conditions=[condition1],
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=upscaled_width,
    height=upscaled_height,
    num_frames=num_frames,
    denoise_strength=0.4,  # 实际上，在10步推理中进行4步
    num_inference_steps=10,
    latents=upscaled_latents,
    decode_timestep=0.05,
    image_cond_noise_scale=0.025,
    generator=torch.Generator().manual_seed(0),
    output_type="pil",
).frames[0]

# 第四部分. 将视频下采样到预期分辨率
video = [frame.resize((expected_width, expected_height)) for frame in video]

export_to_video(video, "output.mp4", fps=24)