V

Videochat Flash Qwen2 5 7B 1M Res224

由 OpenGVLab 开发
VideoChat-Flash是基于UMT-L和Qwen2.5-7B-1M构建的多模态模型,支持长视频理解,上下文窗口扩展至1M。
下载量 64
发布时间 : 2/19/2025
模型介绍
内容详情
替代品

模型简介

该模型专注于视频与文本的多模态交互,能够处理长达约50,000帧的视频输入,适用于视频理解和分析任务。

模型特点

高效长视频处理
通过Yarn技术扩展上下文窗口至1M,支持处理长达约50,000帧的视频输入。
低标记消耗
仅使用每帧16个标记,实现高效的视频内容理解。
多模态能力
结合视觉和语言理解能力,实现视频与文本的交互。

模型能力

视频内容理解
多模态交互
长视频处理
文本生成

使用案例

视频分析
视频问答
基于视频内容回答相关问题
在MLVU数据集上达到74.1%准确率
视频内容理解
理解并描述长视频内容
在LongVideoBench上达到66.5%准确率
多模态测试
感知测试
多模态感知能力评估
在Perception Test上达到75.4%准确率