LTX Video 0.9.7 Distilled
首个基于DiT架构的实时高质量视频生成模型,支持1216×704分辨率30FPS生成
下载量 208
发布时间 : 5/14/2025
模型简介
基于扩散模型的文本/图像转视频生成系统,通过大规模数据集训练实现高清视频实时生成
模型特点
实时高清生成
能以1216×704分辨率、30帧/秒的速度生成视频,速度快于播放速度
双模态输入
同时支持文本提示和图像输入两种生成模式
高质量输出
通过大规模多样化视频数据集训练,生成内容真实丰富的高清视频
模型能力
文本转视频生成
图像转视频生成
高分辨率视频合成
实时视频渲染
使用案例
创意内容生产
短视频创作
根据文字描述自动生成创意短视频内容
生成720P-1080P高清视频
图像动画化
将静态图片转化为动态视频
保持原始构图的同时添加合理动态效果
营销素材制作
广告视频生成
快速生成产品展示视频
支持多角度展示和场景切换
🚀 LTX-Video 0.9.7 蒸馏模型卡
LTX-Video 是首个基于 DiT 的视频生成模型,能够实时生成高质量视频。它能以 1216×704 的分辨率、30 FPS 的帧率生成视频,速度之快甚至超过人眼观看速度。该模型在大规模多样化视频数据集上进行训练,可生成具有逼真且丰富内容的高分辨率视频。我们为文本到视频以及图像+文本到视频的应用场景都提供了相应模型。

🚀 快速开始
本模型卡聚焦于与 LTX-Video 模型相关的模型,代码库可在 此处 获取。
✨ 主要特性
- 实时高质量视频生成:LTX-Video 是首个基于 DiT 的视频生成模型,能够实时生成高质量视频,以 1216×704 分辨率、30 FPS 帧率生成视频的速度极快。
- 大规模数据训练:在大规模多样化视频数据集上进行训练,可生成具有逼真且丰富内容的高分辨率视频。
- 多场景支持:提供了适用于文本到视频以及图像+文本到视频两种应用场景的模型。
📦 安装指南
本地运行
安装
代码库在 Python 3.10.5、CUDA 版本 12.2 环境下进行了测试,支持 PyTorch >= 2.1.2。
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
# 创建虚拟环境
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]
💻 使用示例
直接使用
你可以在许可证允许的范围内使用该模型:
- 2B 版本 0.9:许可证
- 2B 版本 0.9.1:许可证
- 2B 版本 0.9.5:许可证
- 2B 版本 0.9.6-dev:许可证
- 2B 版本 0.9.6 蒸馏版:许可证
- 13B 版本 0.9.7-dev:许可证
- 13B 版本 0.9.7-dev-fp8:许可证
- 13B 版本 0.9.7 蒸馏版:许可证
- 13B 版本 0.9.7 蒸馏版-lora128:许可证
- 时间上采样器版本 0.9.7:许可证
- 空间上采样器版本 0.9.7:许可证
通用提示
- 模型适用于分辨率能被 32 整除、帧数能被 8 + 1(例如 257)整除的情况。若分辨率或帧数不能被 32 或 8 + 1 整除,输入将用 -1 填充,然后裁剪到所需的分辨率和帧数。
- 模型在分辨率低于 720 x 1280 且帧数少于 257 时效果最佳。
- 提示词应为英文,越详细越好。优质提示词示例:
The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.
在线演示
可通过以下链接立即访问该模型:
ComfyUI
若要在 ComfyUI 中使用我们的模型,请遵循专用 ComfyUI 仓库 中的说明。
本地运行
推理
若要使用我们的模型,请遵循 inference.py 中的推理代码:
文本到视频生成
python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-distilled.yaml
图像到视频生成
python inference.py --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-distilled.yaml
Diffusers 🧨
LTX Video 与 Diffusers Python 库 兼容,支持文本到视频和图像到视频的生成。在尝试以下示例之前,请确保安装了 diffusers
:
pip install -U git+https://github.com/huggingface/diffusers
现在,你可以运行以下示例(注意,上采样阶段是可选的,但建议使用):
文本到视频
import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video
pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-distilled", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()
prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 704, 512
downscale_factor = 2 / 3
num_frames = 121
# 第一部分:以较小分辨率生成视频
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
latents = pipe(
conditions=None,
prompt=prompt,
negative_prompt=negative_prompt,
width=downscaled_width,
height=downscaled_height,
num_frames=num_frames,
num_inference_steps=7,
decode_timestep = 0.05,
guidnace_scale=1.0,
decode_noise_scale = 0.025,
generator=torch.Generator().manual_seed(0),
output_type="latent",
).frames
# 第二部分:使用潜在上采样器以较少推理步骤对生成的视频进行上采样
# 可用的潜在上采样器将高度/宽度上采样 2 倍
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
latents=latents,
output_type="latent"
).frames
# 第三部分:以较少步骤对经上采样的视频进行去噪以改善纹理(可选,但建议)
video = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=upscaled_width,
height=upscaled_height,
num_frames=num_frames,
denoise_strength=0.3, # 实际上,在 10 步推理中进行 4 步
num_inference_steps=10,
latents=upscaled_latents,
decode_timestep = 0.05,
guidnace_scale=1.0,
decode_noise_scale = 0.025,
image_cond_noise_scale=0.025,
generator=torch.Generator().manual_seed(0),
output_type="pil",
).frames[0]
# 第四部分:将视频下采样到预期分辨率
video = [frame.resize((expected_width, expected_height)) for frame in video]
export_to_video(video, "output.mp4", fps=24)
图像到视频
import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video, load_image
pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-distilled", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()
image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/penguin.png")
video = [image]
condition1 = LTXVideoCondition(video=video, frame_index=0)
prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 832, 480
downscale_factor = 2 / 3
num_frames = 96
# 第一部分:以较小分辨率生成视频
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
downscaled_height, downscaled_width = round_to_nearest_resolution_acceptable_by_vae(downscaled_height, downscaled_width)
latents = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=downscaled_width,
height=downscaled_height,
num_frames=num_frames,
num_inference_steps=7,
guidnace_scale=1.0,
decode_timestep = 0.05,
decode_noise_scale = 0.025,
generator=torch.Generator().manual_seed(0),
output_type="latent",
).frames
# 第二部分:使用潜在上采样器以较少推理步骤对生成的视频进行上采样
# 可用的潜在上采样器将高度/宽度上采样 2 倍
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
latents=latents,
output_type="latent"
).frames
# 第三部分:以较少步骤对经上采样的视频进行去噪以改善纹理(可选,但建议)
video = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=upscaled_width,
height=upscaled_height,
num_frames=num_frames,
denoise_strength=0.3, # 实际上,在 10 步推理中进行 4 步
num_inference_steps=10,
guidnace_scale=1.0,
latents=upscaled_latents,
decode_timestep = 0.05,
decode_noise_scale = 0.025,
image_cond_noise_scale=0.025,
generator=torch.Generator().manual_seed(0),
output_type="pil",
).frames[0]
# 第四部分:将视频下采样到预期分辨率
video = [frame.resize((expected_width, expected_height)) for frame in video]
export_to_video(video, "output.mp4", fps=24)
视频到视频
import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video, load_video
pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-distilled", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()
def round_to_nearest_resolution_acceptable_by_vae(height, width):
height = height - (height % pipe.vae_temporal_compression_ratio)
width = width - (width % pipe.vae_temporal_compression_ratio)
return height, width
video = load_video(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cosmos/cosmos-video2world-input-vid.mp4"
)[:21] # 仅使用前 21 帧作为条件
condition1 = LTXVideoCondition(video=video, frame_index=0)
prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 768, 1152
downscale_factor = 2 / 3
num_frames = 161
# 第一部分:以较小分辨率生成视频
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
downscaled_height, downscaled_width = round_to_nearest_resolution_acceptable_by_vae(downscaled_height, downscaled_width)
latents = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=downscaled_width,
height=downscaled_height,
num_frames=num_frames,
num_inference_steps=7,
guidnace_scale=1.0,
decode_timestep = 0.05,
decode_noise_scale = 0.025,
generator=torch.Generator().manual_seed(0),
output_type="latent",
).frames
# 第二部分:使用潜在上采样器以较少推理步骤对生成的视频进行上采样
# 可用的潜在上采样器将高度/宽度上采样 2 倍
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
latents=latents,
output_type="latent"
).frames
# 第三部分:以较少步骤对经上采样的视频进行去噪以改善纹理(可选,但建议)
video = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=upscaled_width,
height=upscaled_height,
num_frames=num_frames,
denoise_strength=0.3, # 实际上,在 10 步推理中进行 4 步
num_inference_steps=10,
guidnace_scale=1.0,
latents=upscaled_latents,
decode_timestep = 0.05,
decode_noise_scale = 0.025,
image_cond_noise_scale=0.025,
generator=torch.Generator().manual_seed(0),
output_type="pil",
).frames[0]
# 第四部分:将视频下采样到预期分辨率
video = [frame.resize((expected_width, expected_height)) for frame in video]
export_to_video(video, "output.mp4", fps=24)
要了解更多信息,请查看 官方文档。Diffusers 还支持使用 from_single_file()
方法直接从原始 LTX 检查点加载模型。查看 此部分 以了解更多。
📚 详细文档
模型详情
属性 | 详情 |
---|---|
开发者 | Lightricks |
模型类型 | 基于扩散的文本到视频和图像到视频生成模型 |
语言 | 英语 |
模型与工作流
名称 | 说明 | inference.py 配置 | ComfyUI 工作流(推荐) |
---|---|---|---|
ltxv-13b-0.9.7-dev | 最高质量,需要更多 VRAM | ltxv-13b-0.9.7-dev.yaml | ltxv-13b-i2v-base.json |
ltxv-13b-0.9.7-mix | 在同一多尺度渲染工作流中混合 ltxv-13b-dev 和 ltxv-13b 蒸馏版,以实现速度和质量的平衡 | N/A | ltxv-13b-i2v-mix.json |
ltxv-13b-0.9.7-distilled | 更快,VRAM 使用更少,与 13b 版本相比质量略有下降。适用于快速迭代 | ltxv-13b-0.9.7-distilled.yaml | ltxv-13b-dist-i2v-base.json |
ltxv-13b-0.9.7-distilled-lora128 | LoRA,使 ltxv-13b-dev 表现得像蒸馏模型 | N/A | N/A |
ltxv-13b-0.9.7-fp8 | ltxv-13b 的量化版本 | 即将推出 | ltxv-13b-i2v-base-fp8.json |
ltxv-13b-0.9.7-distilled-fp8 | ltxv-13b 蒸馏版的量化版本 | 即将推出 | ltxv-13b-dist-fp8-i2v-base.json |
ltxv-2b-0.9.6 | 质量良好,比 ltxv-13b 对 VRAM 的要求更低 | ltxv-2b-0.9.6-dev.yaml | ltxvideo-i2v.json |
ltxv-2b-0.9.6-distilled | 速度快 15 倍,支持实时处理,所需步骤更少,无需 STG/CFG | ltxv-2b-0.9.6-distilled.yaml | ltxvideo-i2v-distilled.json |
模型示例
![]() 一位留着棕色长发、皮肤白皙的女性对着另一位留着金色长发的女性微笑...一位留着棕色长发、皮肤白皙的女性对着另一位留着金色长发的女性微笑。留棕色头发的女性穿着黑色夹克,右脸颊上有一颗小到几乎难以察觉的痣。相机视角为特写,聚焦在留棕色头发女性的脸上。光线温暖自然,可能来自夕阳,给场景披上了一层柔和的光芒。该场景看起来像是真实生活中的画面。 |
![]() 一位女性在夜晚从停在城市街道上的白色吉普车旁走开...一位女性在夜晚从停在城市街道上的白色吉普车旁走开,然后走上楼梯并敲门。这位穿着深色夹克和牛仔裤的女性从停在街道左侧的吉普车旁走开,背对着相机;她步伐平稳,手臂在身体两侧轻微摆动;街道灯光昏暗,路灯在潮湿的路面上投下一片片光亮;一位穿着深色夹克和牛仔裤的男性从相反方向走过吉普车;相机从后面跟随女性走上通往一座有绿色门的建筑物的楼梯;她到达楼梯顶部后向左转,继续朝建筑物走去;她走到门前,用右手敲门;相机保持静止,聚焦在门口。该场景看起来像是真实生活中的画面。 |
![]() 一位梳着发髻、留着金色头发的女性,穿着带亮片的黑色连衣裙...一位梳着发髻、留着金色头发的女性,穿着带亮片的黑色连衣裙和珍珠耳环,面带悲伤地低头。相机保持静止,聚焦在女性的脸上。光线昏暗,在她脸上投下柔和的阴影。该场景看起来像是来自电影或电视剧。 |
![]() 相机扫过一片被雪覆盖的山脉...相机扫过一片被雪覆盖的山脉,展现出一片广阔的、白雪皑皑的山峰和山谷。山脉被厚厚的积雪覆盖,有些地方几乎呈白色,而有些地方则略带深色,几乎呈灰色调。山峰参差不齐、形状各异,有些陡峭地直插云霄,而有些则较为圆润。山谷又深又窄,陡峭的山坡上也覆盖着积雪。前景中的树木大多光秃秃的,只有少数树枝上还留着几片叶子。天空阴云密布,厚厚的云层遮住了太阳。整体给人一种宁静祥和的感觉,被雪覆盖的山脉见证了大自然的力量与美丽。 |
![]() 一位皮肤白皙的女性,穿着蓝色夹克和带面纱的黑色帽子...一位皮肤白皙的女性,穿着蓝色夹克和带面纱的黑色帽子,边说话边向下看向右侧,然后又抬头。她留着棕色头发,梳成发髻,眉毛呈浅棕色,夹克里面穿着白色领口衬衫;她说话时相机一直对着她的脸;背景有些模糊,但能看到树木和穿着古装的人;该场景看起来像是真实生活中的画面。 |
![]() 一位男子在光线昏暗的房间里对着一部老式电话交谈...一位男子在光线昏暗的房间里对着一部老式电话交谈,挂断电话后,面带悲伤地低头。他用右手将黑色旋转电话贴在右耳旁,左手拿着一个装有琥珀色液体的岩石杯。他穿着棕色西装外套,里面是白色衬衫,左手无名指上戴着一枚金戒指。他的短发梳理得整整齐齐,皮肤白皙,眼睛周围有明显的皱纹。相机保持静止,聚焦在他的脸和上半身。房间很暗,只有左侧屏幕外的一个暖光源照亮,在他身后的墙上投下阴影。该场景看起来像是来自电影。 |
![]() 一名狱警打开牢房的门...一名狱警打开牢房的门,露出一名年轻男子和一名女子坐在桌旁的场景。狱警穿着左胸有徽章的深蓝色制服,用右手拿着钥匙打开牢房门并拉开;他留着棕色短发,皮肤白皙,表情平淡。年轻男子穿着黑白条纹衬衫,坐在铺着白色桌布的桌旁,面向女子;他留着棕色短发,皮肤白皙,表情平淡。女子穿着深蓝色衬衫,坐在年轻男子对面,脸转向他;她留着金色短发,皮肤白皙。相机保持静止,从适中的距离捕捉场景,位置略在狱警右侧。房间光线昏暗,只有一盏灯具照亮桌子和两个人物。墙壁由巨大的灰色混凝土块砌成,背景中可以看到一扇金属门。该场景看起来像是真实生活中的画面。 |
![]() 一位脸上有血、穿着白色背心的女性...一位脸上有血、穿着白色背心的女性边说话边向下看向右侧,然后又抬头。她留着深色头发,向后梳起,皮肤白皙,脸和胸部都沾满了血。相机视角为特写,聚焦在女性的脸和上半身。光线昏暗,呈蓝色调,营造出一种忧郁而紧张的氛围。该场景看起来像是来自电影或电视剧。 |
![]() 一位头发花白、留着胡须、穿着灰色衬衫的男子...一位头发花白、留着胡须、穿着灰色衬衫的男子向下看向右侧,然后转头向左。相机视角为特写,聚焦在男子的脸上。光线昏暗,略带绿色调。该场景看起来像是真实生活中的画面。 |
![]() 一条清澈的蓝绿色河流流经一个岩石峡谷...一条清澈的蓝绿色河流流经一个岩石峡谷,从一个小瀑布上倾泻而下,在底部形成一个水潭。河流是场景的主要焦点,清澈的河水倒映着周围的树木和岩石。峡谷壁陡峭多石,上面生长着一些植被。树木大多是松树,绿色的针叶与棕色和灰色的岩石形成鲜明对比。整个场景给人一种宁静祥和的感觉。 |
![]() 一位穿着西装的男子走进房间,与两位坐在沙发上的女性交谈...一位穿着西装的男子走进房间,与两位坐在沙发上的女性交谈。男子穿着配有金色领带的深色西装,从左侧进入房间,朝画面中心走去。他留着灰色短发,皮肤白皙,表情严肃。他走近沙发时,右手放在椅子背上。背景中,两位女性坐在浅色沙发上。左边的女性穿着浅蓝色毛衣,留着金色短发。右边的女性穿着白色毛衣,留着金色短发。相机保持静止,在男子进入房间时聚焦在他身上。房间光线明亮,温暖的色调在墙壁和家具上反射。该场景看起来像是来自电影或电视剧。 |
![]() 海浪拍打着海岸线参差不齐的岩石...海浪拍打着海岸线参差不齐的岩石,激起高高的浪花。岩石呈深灰色,边缘锋利,有很深的裂缝。海水呈清澈的蓝绿色,海浪拍打岩石的地方泛起白色泡沫。天空呈浅灰色,地平线上点缀着几朵白云。 |
![]() 相机扫过一片高楼林立的城市景观...相机扫过一片高楼林立的城市景观,中间有一座圆形建筑。相机从左向右移动,展示着高楼的顶部和中间的圆形建筑。高楼呈现出各种灰色和白色调,圆形建筑的屋顶是绿色的。相机视角较高,俯瞰着城市。光线明亮,太阳从左上方照射下来,在高楼上投下阴影。该场景是计算机生成的图像。 |
![]() 一位男子走向窗户,向外张望,然后转身...一位男子走向窗户,向外张望,然后转身。他留着黑色短发,皮肤黝黑,穿着棕色外套,里面围着红灰色围巾。他从左向右走向窗户,目光固定在窗外的某个东西上。相机从适中的距离从后面跟随他。房间光线明亮,白色的墙壁和一扇被白色窗帘遮住的大窗户。当他走近窗户时,他微微向左转头,然后又向右转头。然后他整个身体向右转,面向窗户。他站在窗户前时,相机保持静止。该场景看起来像是真实生活中的画面。 |
![]() 两位穿着深蓝色制服和配套帽子的警察...两位穿着深蓝色制服和配套帽子的警察通过画面左侧的一扇门进入一个光线昏暗的房间。第一位警察留着棕色短发和小胡子,先走进来,后面跟着他的搭档,搭档剃着光头,留着山羊胡。两位警察表情严肃,步伐稳健地向房间深处走去。相机保持静止,从略低的角度捕捉他们进入的画面。房间的墙壁是裸露的砖块,天花板是波纹金属材质,背景中可以看到一扇有栅栏的窗户。光线较暗,在警察脸上投下阴影,凸显出严峻的氛围。该场景看起来像是来自电影或电视剧。 |
![]() 一位留着棕色短发、穿着栗色无袖上衣的女性...一位留着棕色短发、穿着栗色无袖上衣和银色项链的女性边说话边穿过房间,然后一位留着粉色头发、穿着白色衬衫的女性出现在门口并大喊。第一位女性从左向右走,表情严肃;她皮肤白皙,眉毛微微皱起。第二位女性站在门口,张着嘴大喊;她皮肤白皙,眼睛睁得很大。房间光线昏暗,背景中可以看到一个书架。相机跟随第一位女性走动,然后切换到第二位女性脸部的特写。该场景看起来像是真实生活中的画面。 |
🔧 技术细节
原文档未提供相关技术细节。
📄 许可证
本模型在不同版本下有对应的许可证,具体如下:
- 2B 版本 0.9:许可证
- 2B 版本 0.9.1:许可证
- 2B 版本 0.9.5:许可证
- 2B 版本 0.9.6-dev:许可证
- 2B 版本 0.9.6 蒸馏版:许可证
- 13B 版本 0.9.7-dev:许可证
- 13B 版本 0.9.7-dev-fp8:许可证
- 13B 版本 0.9.7 蒸馏版:许可证
- 13B 版本 0.9.7 蒸馏版-lora128:许可证
- 时间上采样器版本 0.9.7:许可证
- 空间上采样器版本 0.9.7:许可证
⚠️ 局限性
- 本模型并非用于也无法提供事实信息。
- 作为统计模型,此检查点可能会放大现有的社会偏见。
- 模型可能无法生成与提示词完全匹配的视频。
- 模型对提示词的遵循程度很大程度上受提示风格的影响。
Xclip Base Patch32
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在(视频,文本)对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频
Transformers 英语

X
microsoft
309.80k
84
LTX Video
其他
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
文本生成视频 英语
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用于文本到视频的生成任务。
文本生成视频
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
极速文本生成视频模型,生成速度比原版AnimateDiff快十倍以上
文本生成视频
A
ByteDance
144.00k
925
V Express
V-Express是一个基于音频和面部关键点条件生成的视频生成模型,能够将音频输入转换为动态视频输出。
文本生成视频 英语
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的视频生成模型的开源版本,提供高质量的视频生成能力。
文本生成视频 英语
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
文本生成视频
Transformers 英语

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,旨在突破视频生成的边界,支持中英文文本生成视频、图像生成视频等多种任务。
文本生成视频 支持多种语言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,具备顶尖性能、支持消费级GPU、多任务支持、视觉文本生成和高效视频VAE等特点。
文本生成视频 支持多种语言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1是一套综合性开源视频基础模型,具备文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频等多任务能力,支持中英双语文本生成。
文本生成视频 支持多种语言
W
Wan-AI
44.88k
1,238
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文