TinyLLaVA-Video开源视频理解模型 - 免费部署，精准处理视频帧

Tinyllava Video Qwen2.5 3B Group 16 512

由 Zhang199 开发

TinyLLaVA-Video是基于Qwen2.5-3B和siglip-so400m-patch14-384构建的视频理解模型，采用分组重采样器处理视频帧

下载量 76

发布时间 : 3/19/2025

模型简介

该模型结合了大型语言模型和视觉模块，专门用于视频文本转换任务，能够从视频中提取关键帧并进行语义理解

高效视频处理

采用分组重采样器从每段视频中抽取16帧画面，提高处理效率

多模态理解

结合视觉和语言模型，实现对视频内容的深度理解

紧凑架构

仅3B参数的轻量级设计，在保持性能的同时降低计算需求

视频内容理解

视频文本转换

多模态推理

时序信息处理

视频分析

视频内容摘要

自动生成视频内容的文字摘要

在LongVideoBench上达到42.4分

视频问答

回答关于视频内容的各类问题

在Video-MME上达到47.0分

智能监控

异常行为检测

识别监控视频中的异常事件

模型 (HF 路径)	每查询帧数	Video-MME	MVBench	LongVideoBench	MLVU
Zhang199/TinyLLaVA-Video-Qwen2.5-3B-Group-1fps-512	1fps/512	47.7	47.0	42.0	52.6
Zhang199/TinyLLaVA-Video-Qwen2.5-3B-Group-16-512	16/512	47.0	45.5	42.4	52.5
Zhang199/TinyLLaVA-Video-Qwen2.5-3B-Naive-16-512	16/512	44.7	42.5	37.6	48.1
Zhang199/TinyLLaVA-Video-Phi2-Naive-16-512	16/512	42.7	42.0	42.2	46.5