Tarsier-7b开源视频语言模型 - 免费生成高质量视频描述，具备通用理解能力

首页

Tarsier 7b

由 omni-research 开发

Tarsier-7b 是 Tarsier 系列的开源大规模视频语言模型，专注于生成高质量视频描述并具备优秀的通用视频理解能力。

视频生成文本

Transformers

#视频描述生成 #多模态理解 #开源大模型

下载量 635

发布时间 : 7/4/2024

模型简介

Tarsier-7b 是一个开源的大规模视频语言模型，旨在生成高质量的视频描述，同时具备优秀的通用视频理解能力。它是 Tarsier 系列的一员，基于 liuhaotian/llava-v1.6-vicuna-7b 模型构建。

模型特点

高质量视频描述生成

能够生成高质量的视频描述，适用于多种视频内容。

通用视频理解能力

具备优秀的通用视频理解能力，在多个基准测试中表现优异。

两阶段训练策略

采用多任务预训练和多粒度指令微调的两阶段训练策略，提升模型性能。

模型能力

视频描述生成

视频问答

多粒度视频理解

开放式视频问答

视频字幕生成

使用案例

视频内容分析

视频描述生成

为视频生成详细的文字描述，适用于视频内容索引和检索。

高质量的视频描述

视频问答

回答关于视频内容的复杂问题，适用于教育、娱乐等领域。

准确的视频问答结果

视频字幕生成

自动字幕生成

为视频自动生成字幕，提升视频的可访问性。

高质量的字幕内容

🚀 跗猴模型卡片

跗猴（Tarsier）模型是一个开源的大规模视频语言模型，能够生成高质量的视频描述，具备出色的通用视频理解能力。其中，跗猴 - 34b 在 6 个公开基准测试中取得了最优成绩。

🚀 快速开始

如需使用该模型，请参考：使用说明

✨ 主要特性

多模态研究：主要用于大型多模态模型的研究，特别是视频描述任务。
广泛用户群体：适用于计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

📚 详细文档

模型详情

属性	详情
模型类型	跗猴 - 7b 是跗猴家族中的一员，属于开源的大规模视频语言模型，旨在生成高质量的视频描述，并具备良好的通用视频理解能力（跗猴 - 34b 在 6 个公开基准测试中取得了最优成绩）。基础大语言模型：[liuhaotian/llava - v1.6 - vicuna - 7b](https://huggingface.co/liuhaotian/llava - v1.6 - vicuna - 7b)
模型日期	跗猴 - 7b 于 2024 年 6 月完成训练。
更多信息的论文或资源	- GitHub 仓库：https://github.com/bytedance/tarsier - 论文链接：https://arxiv.org/abs/2407.00634

预期用途

主要预期用途

跗猴模型的主要用途是进行大型多模态模型的研究，尤其是视频描述相关的研究。

主要预期用户

该模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

训练数据集

跗猴模型采用两阶段训练策略：

阶段一：在 1300 万条数据上进行多任务预训练。
阶段二：在 50 万条数据上进行多粒度指令微调。

在两个阶段中，我们冻结了视觉变换器（ViT），并训练投影层和大语言模型（LLM）的所有参数。

评估数据集

具有挑战性的视频描述数据集：[DREAM - 1K](https://huggingface.co/datasets/omni - research/DREAM - 1K)
多项选择视频问答：MVBench、[NeXT - QA](https://github.com/doc - doc/NExT - QA) 和 Egoschema
开放式视频问答：MSVD - QA、[MSR - VTT - QA](https://opendatalab.com/OpenDataLab/MSR - VTT)、[ActivityNet - QA](https://github.com/MILVLG/activitynet - qa) 和 [TGIF - QA](https://opendatalab.com/OpenDataLab/TGIF - QA)
视频字幕生成：MSVD - Caption、[MSRVTT - Caption](https://opendatalab.com/OpenDataLab/MSR - VTT)、[VATEX](https://eric - xw.github.io/vatex - website/about.html)