potat1开源文本转视频模型 - 免费实现1024x576视频内容轻松生成

首页

Potat1

由 camenduru 开发

首个开源的1024x576文本转视频模型，基于基础模型微调而来

文本生成视频 #高分辨率视频生成 #文本驱动视频合成 #开源视频模型

下载量 56

发布时间 : 6/5/2023

模型简介

Potat 1是一个文本到视频生成模型，能够根据输入的文本描述生成高质量的视频内容。

模型特点

高分辨率视频生成

支持生成1024x576分辨率的高质量视频

多阶段训练模型

提供从5000步到50000步的多个训练阶段模型

开源数据集

训练数据集公开可用，包含2197个视频片段和68388帧标注

模型能力

文本到视频转换

高分辨率视频生成

基于文本描述生成动态内容

使用案例

创意内容生成

短视频创作

根据文本描述自动生成创意短视频

可生成1024x576分辨率的视频片段

教育内容

教学视频生成

根据教学大纲自动生成配套视频内容

属性	详情
模型类型	原型模型
训练硬件	使用 Lambda Labs 的 1xA100 (40GB) 进行训练
训练数据	2197个视频片段，68388个带标签的帧（使用 salesforce/blip2-opt-6.7b-coco 进行标注）
训练步数	10000

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Potat1

模型简介

模型特点

模型能力

使用案例

🚀 Potat 1️⃣

🚀 快速开始

✨ 主要特性

📚 详细文档

模型链接

模型信息

数据集与配置

微调相关

基础模型

🔧 致谢

💡 使用建议

模型展示

未来展望