标签:
- ltx视频
- 文本转视频
- 图像转视频
置顶: true
语言:
- 英语
许可证: 其他
LTX视频模型卡
本模型卡重点介绍与LTX视频模型相关的模型,代码库可在此处获取。
LTX视频是首个基于DiT架构的实时高质量视频生成模型。它能以768x512分辨率、24帧/秒的速度生成视频,速度比实时播放更快。该模型在多样化视频的大规模数据集上训练,可生成内容真实丰富的高清视频。
我们提供了同时支持文本到视频和图像+文本到视频两种使用场景的模型。
(此处省略了示例视频表格部分,保留原markdown格式)
模型详情
- 开发团队: Lightricks
- 模型类型: 基于扩散的文本到视频及图像到视频生成模型
- 支持语言: 英语
使用指南
直接使用
您可在遵守许可证的前提下使用本模型
通用建议:
- 模型支持分辨率能被32整除、帧数能被8整除加1(如257)的输入。若不符合要求,输入将自动填充-1后裁剪至目标尺寸
- 最佳表现分辨率低于720x1280,帧数少于257帧
- 提示词需使用英文,越详细越好。优质提示示例:
碧蓝海浪拍打着岸边嶙峋的黑色礁石,激起白色浪花飞溅空中。画面以明亮的蓝色海水与近乎黑色的礁石形成强烈对比为主。海水呈现清澈的绿松石色,浪尖点缀着白色泡沫。礁石表面覆盖着斑驳的绿色苔藓,岸边植被茂盛,远处可见森林覆盖的连绵山丘。多云天气下光线柔和。
在线演示
可通过以下链接立即体验:
ComfyUI集成
使用ComfyUI运行模型,请参考专用ComfyUI仓库的说明。
本地运行
安装
测试环境:Python 3.10.5,CUDA 12.2,支持PyTorch ≥ 2.1.2
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]
从Hugging Face下载模型:
from huggingface_hub import snapshot_download
model_path = '路径'
snapshot_download("Lightricks/LTX-Video", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')
推理
参考inference.py中的推理代码:
文本转视频:
python inference.py --ckpt_dir '路径' --prompt "提示词" --height 高度 --width 宽度 --num_frames 帧数 --seed 随机种子
图像转视频:
python inference.py --ckpt_dir '路径' --prompt "提示词" --input_image_path 图片路径 --height 高度 --width 宽度 --num_frames 帧数 --seed 随机种子
Diffusers 🧨 支持
LTX视频与Diffusers库兼容,支持文本和图像到视频生成。
安装最新版diffusers:
pip install -U git+https://github.com/huggingface/diffusers
运行示例:
import torch
from diffusers import LTXPipeline
from diffusers.utils import export_to_video
pipe = LTXPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "(此处保留英文提示词示例)"
negative_prompt = "低质量, 动作不连贯, 模糊, 抖动, 变形"
video = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=704,
height=480,
num_frames=161,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
图像转视频示例:
import torch
from diffusers import LTXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image
pipe = LTXImageToVideoPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")
image = load_image("图片URL")
prompt = "(此处保留英文提示词示例)"
negative_prompt = "低质量, 动作不连贯, 模糊, 抖动, 变形"
video = pipe(
image=image,
prompt=prompt,
negative_prompt=negative_prompt,
width=704,
height=480,
num_frames=161,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
了解更多请查阅官方文档。Diffusers还支持通过from_single_file()
直接加载原始LTX模型文件,详见相关章节。
局限性
- 本模型无法提供事实性信息
- 作为统计模型可能放大现有社会偏见
- 生成效果可能无法完全匹配提示词
- 输出质量高度依赖提示词的撰写方式