T

Tinyllava Video Qwen2.5 3B Group 16 512

由 Zhang199 开发
TinyLLaVA-Video是基于Qwen2.5-3B和siglip-so400m-patch14-384构建的视频理解模型,采用分组重采样器处理视频帧
下载量 76
发布时间 : 3/19/2025
模型介绍
内容详情
替代品

模型简介

该模型结合了大型语言模型和视觉模块,专门用于视频文本转换任务,能够从视频中提取关键帧并进行语义理解

模型特点

高效视频处理
采用分组重采样器从每段视频中抽取16帧画面,提高处理效率
多模态理解
结合视觉和语言模型,实现对视频内容的深度理解
紧凑架构
仅3B参数的轻量级设计,在保持性能的同时降低计算需求

模型能力

视频内容理解
视频文本转换
多模态推理
时序信息处理

使用案例

视频分析
视频内容摘要
自动生成视频内容的文字摘要
在LongVideoBench上达到42.4分
视频问答
回答关于视频内容的各类问题
在Video-MME上达到47.0分
智能监控
异常行为检测
识别监控视频中的异常事件