L

Llava Video 7B Qwen2

由 lmms-lab 开发
LLaVA-视频模型是基于Qwen2语言模型的7B参数多模态模型,专注于视频理解任务,支持64帧视频输入。
下载量 34.28k
发布时间 : 9/2/2024
模型介绍
内容详情
替代品

模型简介

该模型在LLaVA-视频-178K和LLaVA-OneVision数据集上训练,具备与图像、多图像和视频交互的能力,主要针对视频理解任务。

模型特点

多模态视频理解
支持处理视频输入并生成相关文本描述或回答问题
长上下文支持
支持32K tokens的上下文窗口,可处理较长视频内容
多帧处理能力
最多可处理64帧视频输入

模型能力

视频内容理解
视频问答
视频描述生成
多模态推理

使用案例

视频理解
视频内容描述
根据输入视频生成详细的内容描述
视频问答
回答关于视频内容的各类问题
在多个视频问答数据集上表现优异