L

Llava NeXT Video 7B Hf

由 llava-hf 开发
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
下载量 65.95k
发布时间 : 6/5/2024
模型介绍
内容详情
替代品

模型简介

基于LLaVA-NeXT构建的视频理解模型,支持图像和视频的多模态输入,能够执行视觉问答、内容描述等任务。

模型特点

视频理解能力
通过100K VideoChatGPT-Instruct数据训练,具备优秀的视频内容理解能力
多模态输入支持
同时支持图像和视频作为输入,可处理复杂的多模态查询
开源SOTA
在VideoMME基准测试中是当前开源模型中性能最好的
高效推理
支持4位量化和Flash-Attention 2优化,降低计算资源需求

模型能力

视频内容理解
图像内容分析
多模态问答
视频内容描述
跨模态推理

使用案例

内容理解
视频内容分析
分析视频中的场景、动作和事件
准确描述视频内容和有趣之处
图像问答
回答关于图像内容的各类问题
提供准确的图像内容解释
教育
教学视频理解
解析教育视频内容,辅助学习
帮助学生理解复杂概念