V

Videochat Flash Qwen2 7B Res224

由 OpenGVLab 开发
基于UMT-L和Qwen2-7B构建的多模态模型,支持长视频理解,每帧仅使用16个标记,上下文窗口扩展至128k。
下载量 80
发布时间 : 1/11/2025
模型介绍
内容详情
替代品

模型简介

VideoChat-Flash-7B是一个高效的多模态模型,专注于视频文本转换任务,能够处理长达约10,000帧的输入序列。

模型特点

高效视频处理
每帧仅使用16个标记,显著降低计算资源需求。
长视频支持
通过Yarn扩展上下文窗口至128k,支持输入序列长达约10,000帧。
多模态理解
结合视觉和语言模型,实现视频内容的深度理解。

模型能力

视频内容理解
多模态推理
长视频处理
文本生成

使用案例

视频分析
视频问答
根据视频内容回答相关问题。
在MLVU数据集上达到74.5%的准确率。
视频内容总结
生成视频内容的文本摘要。
在LongVideoBench数据集上达到64.2%的准确率。
多模态推理
视觉问答
结合视频和文本信息进行推理。
在Perception Test数据集上达到75.6%的准确率。