L

Llava NeXT Video 7B DPO

由 lmms-lab 开发
LLaVA-Next-Video 是一个开源的多模态对话模型,通过对大语言模型进行多模态指令跟随数据的微调训练而成,支持视频和文本的多模态交互。
下载量 8,049
发布时间 : 4/16/2024
模型介绍
内容详情
替代品

模型简介

LLaVA-Next-Video 是一个基于 Vicuna-7B 的多模态对话模型,专注于视频和文本的多模态交互,适用于研究和开发多模态对话系统。

模型特点

多模态交互
支持视频和文本的多模态输入,能够生成与视频内容相关的文本响应。
指令跟随
通过多模态指令跟随数据的微调训练,能够理解和执行复杂的多模态指令。
开源模型
完全开源,便于研究人员和开发者进行二次开发和定制。

模型能力

视频内容理解
多模态对话生成
指令跟随
视频问答

使用案例

研究
多模态对话系统研究
用于研究和开发多模态对话系统,探索视频和文本的交互方式。
教育
视频内容问答
用于教育场景中,根据视频内容生成问答和解释。