基础模型: THUDM/CogVideoX-5b
数据集: finetrainers/cakeify-smol
库名称: diffusers
许可证: other
许可证链接: https://huggingface.co/THUDM/CogVideoX-5b/blob/main/LICENSE
实例提示: PIKA_CAKEIFY 一个红色茶杯放置在木质桌面上。突然,一把刀出现并切开茶杯,露出内部的蛋糕。茶杯随即转变为超写实道具蛋糕,展现日常物品出人意料的创意蜕变。
示例:
- 文本: PIKA_CAKEIFY 一块蓝色香皂置于现代桌面上。突然,一把刀出现并切开香皂,露出内部的蛋糕。香皂随即转变为超写实道具蛋糕,展现日常物品出人意料的创意蜕变。
输出:
url: "./assets/output_0.mp4"
- 文本: PIKA_CAKEIFY 在闪亮的玻璃展示台上,一个光滑的黑色手提包静静吸引目光。突然,一把刀出现并切开鞋子,露出内部蓬松的香草海绵蛋糕。瞬间它转变为超写实道具蛋糕,以平凡与非凡的趣味并置愉悦感官。
输出:
url: "./assets/output_1.mp4"
- 文本: PIKA_CAKEIFY 一个红色茶杯放置在木质桌面上。突然,一把刀出现并切开茶杯,露出内部的蛋糕。茶杯随即转变为超写实道具蛋糕,展现日常物品出人意料的创意蜕变。
输出:
url: "./assets/output_2.mp4"
标签:
- 文本生成视频
- diffusers训练
- diffusers
- cogvideox
- cogvideox-diffusers
- 模板:sd-lora
这是基于THUDM/CogVideoX-5b模型在finetrainers/cakeify-smol数据集上的微调版本。我们还提供了参数的LoRA变体,详情参见此处。
代码仓库: https://github.com/a-r-r-o-w/finetrainers
[!重要]
此为实验性检查点,其泛化能力不足是已知问题。
推理代码示例:
from diffusers import CogVideoXTransformer3DModel, DiffusionPipeline
from diffusers.utils import export_to_video
import torch
transformer = CogVideoXTransformer3DModel.from_pretrained(
"finetrainers/cakeify-v0", torch_dtype=torch.bfloat16
)
pipeline = DiffusionPipeline.from_pretrained(
"THUDM/CogVideoX-5b", transformer=transformer, torch_dtype=torch.bfloat16
).to("cuda")
prompt = """
PIKA_CAKEIFY 在闪亮的玻璃展示台上,一个光滑的黑色手提包静静吸引目光。突然,一把刀出现并切开鞋子,露出内部蓬松的香草海绵蛋糕。瞬间它转变为超写实道具蛋糕,以平凡与非凡的趣味并置愉悦感官。
"""
negative_prompt = "动作不连贯, 模糊运动, 低质量, 退化输出, 畸形输出"
video = pipeline(
prompt=prompt,
negative_prompt=negative_prompt,
num_frames=81,
height=512,
width=768,
num_inference_steps=50
).frames[0]
export_to_video(video, "output.mp4", fps=25)
训练日志可通过WandB查看此处。
LoRA版本
我们从微调检查点提取了64秩的LoRA(脚本见create_lora.py)。使用此LoRA可实现类似效果:
代码
from diffusers import DiffusionPipeline
from diffusers.utils import export_to_video
import torch
pipeline = DiffusionPipeline.from_pretrained("THUDM/CogVideoX-5b", torch_dtype=torch.bfloat16).to("cuda")
pipeline.load_lora_weights("finetrainers/cakeify-v0", weight_name="extracted_cakeify_lora_64.safetensors")
prompt = """
PIKA_CAKEIFY 在闪亮的玻璃展示台上,一个光滑的黑色手提包静静吸引目光。突然,一把刀出现并切开鞋子,露出内部蓬松的香草海绵蛋糕。瞬间它转变为超写实道具蛋糕,以平凡与非凡的趣味并置愉悦感官。
"""
negative_prompt = "动作不连贯, 模糊运动, 低质量, 退化输出, 畸形输出"
video = pipeline(
prompt=prompt,
negative_prompt=negative_prompt,
num_frames=81,
height=512,
width=768,
num_inference_steps=50
).frames[0]
export_to_video(video, "output_lora.mp4", fps=25)
下表对比了LoRA与非LoRA版本的输出效果(相同参数与随机种子):
完整微调 |
LoRA |
|
|
|
|
|
|