V

Videorefer 7B

由 DAMO-NLP-SG 开发
VideoRefer-7B是一个多模态大语言模型,专注于视频问答任务,能够理解和分析视频中的时空物体关系。
下载量 87
发布时间 : 12/31/2024
模型介绍
内容详情
替代品

模型简介

VideoRefer-7B是一个基于Qwen2-7B-Instruct语言解码器和siglip-so400m-patch14-384视觉编码器的视频大语言模型,主要用于视觉问答任务,支持对视频内容进行时空物体理解。

模型特点

多模态理解
结合视觉和语言信息,能够理解视频中的物体及其时空关系。
大语言模型支持
基于Qwen2-7B-Instruct语言解码器,具备强大的语言理解和生成能力。
高精度视觉编码
使用siglip-so400m-patch14-384视觉编码器,提供高质量的视觉特征提取。

模型能力

视频内容理解
时空物体关系分析
视觉问答
多模态推理

使用案例

视频分析
视频问答
回答关于视频内容的复杂问题,理解物体在时间和空间上的变化。
高准确率的视频问答能力
教育
教育视频理解
帮助学生理解教育视频中的关键概念和物体关系。