L

Llava NeXT Video 34B Hf

由 llava-hf 开发
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练,具备优秀的视频理解能力。
下载量 2,232
发布时间 : 6/6/2024
模型介绍
内容详情
替代品

模型简介

基于LLaVA-NeXT构建的视频理解模型,通过在视频和图像数据的混合上进行调优,在VideoMME基准测试中表现领先。

模型特点

视频理解能力
通过均匀采样32帧处理视频内容,具备优秀的视频理解能力
多模态指令跟随
能够理解和执行基于视频和图像的多模态指令
开源模型领先者
目前在VideoMME基准测试中处于开源模型的领先地位

模型能力

视频内容理解
多模态对话
视频问答
视频内容描述

使用案例

视频内容分析
视频问答系统
基于视频内容回答用户提出的问题
在VideoMME基准测试中表现优异
视频内容摘要
生成视频内容的文字描述和摘要
教育应用
教学视频分析
帮助学生理解教学视频内容并回答问题