Cockatiel-13B开源视频文本生成模型 - 为视频产出贴合人类偏好的精细描述

首页

Cockatiel 13B

由 Fr0zencr4nE 开发

基于VILA-v1.5-13B开发的视频文本生成模型，能够为输入视频生成精细的描述文本，符合人类偏好。

视频生成文本

Transformers

#视频精细描述 #人类偏好优化 #多模态生成

下载量 26

发布时间 : 3/12/2025

模型简介

该模型通过集成合成数据和人类偏好训练，能够生成详细的视频描述文本，适用于视频内容理解和生成任务。

模型特点

精细视频描述生成

能够为输入视频生成符合人类偏好的详细描述文本。

集成合成与人类偏好训练

通过结合合成数据和人类偏好训练，提升生成文本的质量和自然度。

基于VILA-v1.5-13B

基于强大的VILA-v1.5-13B模型开发，具备高性能的视频文本生成能力。

模型能力

视频内容理解

视频文本生成

多模态处理

使用案例

视频内容分析

视频字幕生成

为视频生成详细的字幕或描述文本。

生成符合人类偏好的自然语言描述。

视频内容摘要

从视频中提取关键信息并生成摘要。

生成简洁且信息丰富的视频摘要。

多模态应用

视频问答系统

结合视频和文本输入，回答关于视频内容的问题。

提供准确的视频内容相关回答。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Cockatiel 13B

模型简介

模型特点

模型能力

使用案例

🚀 视频文本详细字幕生成模型

🚀 快速开始

📄 许可证