V

Videochat Flash Qwen2 7B Res448

由 OpenGVLab 开发
VideoChat-Flash-7B是基于UMT-L (300M)和Qwen2-7B构建的多模态模型,每帧仅使用16个标记,支持输入序列长达约10,000帧。
下载量 661
发布时间 : 1/11/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个多模态视频文本转换模型,专注于处理视频和文本之间的交互任务,具备高效的视频理解和文本生成能力。

模型特点

高效视频处理
每帧仅使用16个标记,大幅提升处理效率。
长序列支持
通过Yarn扩展上下文窗口至128k,支持输入序列长达约10,000帧。
多模态能力
结合视频和文本处理能力,适用于复杂的多模态任务。

模型能力

视频理解
文本生成
多模态交互

使用案例

视频分析
视频问答
根据视频内容回答相关问题。
在MLVU数据集上准确率达74.7%。
视频摘要
生成视频内容的文本摘要。
多模态评估
多模态基准测试
在MVBench等数据集上进行多模态性能评估。
在MVBench上准确率达74.0%。