Tarsier-34b开源视频语言模型 - 免费部署生成高质量视频描述

Tarsier 34b

由 omni-research 开发

Tarsier-34b 是一个开源的大规模视频语言模型，专注于生成高质量的视频描述，并在多个公开基准测试中取得领先成绩。

下载量 103

发布时间 : 7/3/2024

模型简介

Tarsier-34b 是一个视频大语言模型，旨在生成高质量的视频描述，同时具备优秀的通用视频理解能力。

两阶段训练策略

采用多任务预训练和多粒度指令微调的两阶段训练方法

参数高效训练

冻结ViT参数，仅训练投影层和大语言模型参数

多基准测试领先

在6个公开基准测试中取得SOTA结果

视频描述生成

视频问答

视频理解

多模态推理

视频内容分析

视频自动描述生成

为视频生成高质量的文字描述

在DREAM-1K等数据集上表现优异

视频问答系统

回答关于视频内容的各类问题

在MVBench、NeXT-QA等数据集上取得领先成绩

研究应用

多模态模型研究

用于大型多模态模型的研究和开发

属性	详情
模型类型	Tarsier-34b是一个开源的大规模视频语言模型，旨在生成高质量的视频描述，同时具备出色的通用视频理解能力（在6个公开基准测试中取得了SOTA结果）。
模型日期	Tarsier-34b于2024年6月进行训练。
更多信息的论文或资源	- GitHub仓库：https://github.com/bytedance/tarsier - 论文链接：https://arxiv.org/abs/2407.00634