T

Tarsier 34b

由 omni-research 开发
Tarsier-34b 是一个开源的大规模视频语言模型,专注于生成高质量的视频描述,并在多个公开基准测试中取得领先成绩。
下载量 103
发布时间 : 7/3/2024
模型介绍
内容详情
替代品

模型简介

Tarsier-34b 是一个视频大语言模型,旨在生成高质量的视频描述,同时具备优秀的通用视频理解能力。

模型特点

两阶段训练策略
采用多任务预训练和多粒度指令微调的两阶段训练方法
参数高效训练
冻结ViT参数,仅训练投影层和大语言模型参数
多基准测试领先
在6个公开基准测试中取得SOTA结果

模型能力

视频描述生成
视频问答
视频理解
多模态推理

使用案例

视频内容分析
视频自动描述生成
为视频生成高质量的文字描述
在DREAM-1K等数据集上表现优异
视频问答系统
回答关于视频内容的各类问题
在MVBench、NeXT-QA等数据集上取得领先成绩
研究应用
多模态模型研究
用于大型多模态模型的研究和开发