LLaVA-NeXT-Video-7B开源多模态对话机器人 - 免费支持视频与文本交互

Llava NeXT Video 7B

由 lmms-lab 开发

LLaVA-Next-Video 是一款开源的多模态对话机器人，通过大语言模型微调训练而成，支持视频和文本的多模态交互。

下载量 1,146

发布时间 : 4/16/2024

模型简介

LLaVA-Next-Video 是一款基于大型语言模型的开源对话机器人，专注于多模态指令跟随任务，支持视频和文本的交互。

多模态交互

支持视频和文本的多模态输入，能够理解和生成与视频内容相关的文本响应。

开源模型

完全开源，允许研究人员和开发者自由使用和修改。

指令跟随

经过多模态指令跟随数据的微调，能够准确执行复杂的多模态任务。

视频-文本对话

多模态指令理解

视频内容分析

文本生成

研究

多模态模型研究

用于计算机视觉和自然语言处理领域的研究，探索多模态模型的潜力。

教育

视频内容问答

用于教育场景中，学生可以通过视频提问，模型生成相关解答。

属性	详情
模型类型	LLaVA-Next-Video是一个通过在多模态指令跟随数据上微调大语言模型（LLM）训练得到的开源聊天机器人。基础大语言模型为lmsys/vicuna-7b-v1.5。
模型日期	LLaVA-Next-Video-7B于2024年4月训练完成。
更多信息资源	https://github.com/LLaVA-VL/LLaVA-NeXT