S

Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4

由 shi-labs 开发
采用慢-快架构的视频多模态大语言模型,平衡时间分辨率和空间细节,支持64帧视频理解
下载量 184
发布时间 : 3/19/2025
模型介绍
内容详情
替代品

模型简介

该模型创新性地采用慢-快双token策略处理视频输入,结合Qwen2-7B语言模型和ConvNeXt-576视觉编码器,在有限计算预算下实现高效的视频理解

模型特点

慢-快双token策略
通过快token快速浏览视频内容,慢token精细提取视觉细节,实现高效视频理解
高帧率处理
支持64帧视频输入,时间分辨率显著优于传统方法
线性复杂度交叉注意力
特制混合解码层实现文本对原始视频特征的线性复杂度交叉注意力

模型能力

视频内容理解
视频内容描述生成
多模态推理
长视频处理

使用案例

视频内容分析
视频内容描述
对输入视频生成详细的内容描述
在视频理解基准测试中优于纯自注意力基线
智能监控
监控视频分析
分析监控视频中的关键事件