caT-text-to-video-2.3b开源文本生成视频模型 - 可平滑过渡支持提示词插值

首页

Cat Text To Video 2.3b

由 motexture 开发

基于条件增强的文本生成视频模型，通过时序条件变换器扩展生成片段并实现平滑过渡，支持提示词插值功能

文本生成视频英语开源协议:Apache-2.0 #时序条件变换 #提示词插值 #片段平滑过渡

下载量 25

发布时间 : 1/22/2025

模型简介

该模型采用ModelScope文本生成视频模型的预训练权重，并通过时序条件变换器进行增强，以扩展生成片段并实现片段间的平滑过渡。同时支持提示词插值功能，可在片段扩展过程中切换场景。

模型特点

时序条件变换器

通过时序条件变换器增强，能够扩展生成片段并实现片段间的平滑过渡

提示词插值

支持在片段扩展过程中切换场景，实现不同场景间的自然过渡

高分辨率生成

支持320x320分辨率的视频生成

模型能力

文本生成视频

视频片段扩展

场景切换过渡

使用案例

创意内容生成

动作场景转换

将骑自行车的场景平滑过渡到骑摩托车的场景

男子骑自行车 -> 男子骑摩托车

人物动作变化

展示人物从吃汉堡到吃冰淇淋的自然过渡

威尔·史密斯吃汉堡 -> 威尔·史密斯吃冰淇淋

动画生成

动漫角色表情变化

生成动漫女孩从静态到大笑的动画

粉色头发的美丽动漫女孩 -> 动漫女孩大笑

属性	详情
模型类型	条件增强的文本到视频生成模型
训练数据	TempoFunk/webvid - 10M
基础模型	ali - vilab/text - to - video - ms - 1.7b

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Cat Text To Video 2.3b

模型简介

模型特点

模型能力

使用案例

🚀 caT文本转视频

🚀 快速开始

📦 安装指南

克隆仓库

示例展示

🔧 技术细节

📄 许可证