L

Llava NeXT Video 7B DPO Hf

由 llava-hf 开发
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练优化,具备优秀的视频理解能力。
下载量 12.61k
发布时间 : 6/6/2024
模型介绍
内容详情
替代品

模型简介

基于LLaVa-NeXT构建的视频理解模型,通过在视频和图像数据混合上进行调优,获得了更好的视频理解能力,支持多视觉输入和多提示生成。

模型特点

多模态理解
同时支持图像和视频输入,并能理解多模态指令
视频理解能力
在VideoMME基准测试中表现领先,具备优秀的视频分析能力
开源可定制
完全开源,支持4位量化和Flash-Attention优化

模型能力

视频内容理解
图像内容分析
多模态指令跟随
视频问答
视频内容描述

使用案例

视频内容分析
视频内容理解
分析视频内容并回答相关问题
能准确理解视频中的动作、场景和事件
教育辅助
教学视频分析
解析教学视频内容,回答学生问题