Llava NeXT Video 7B DPO

由 lmms-lab 开发

LLaVA-Next-Video 是一个开源的多模态对话模型，通过对大语言模型进行多模态指令跟随数据的微调训练而成，支持视频和文本的多模态交互。

文本生成视频

Transformers

#多模态对话 #视频理解 #指令跟随

下载量 8,049

发布时间 : 4/16/2024

模型介绍

内容详情

替代品

模型简介

LLaVA-Next-Video 是一个基于 Vicuna-7B 的多模态对话模型，专注于视频和文本的多模态交互，适用于研究和开发多模态对话系统。

模型特点

多模态交互

支持视频和文本的多模态输入，能够生成与视频内容相关的文本响应。

指令跟随

通过多模态指令跟随数据的微调训练，能够理解和执行复杂的多模态指令。

开源模型

完全开源，便于研究人员和开发者进行二次开发和定制。

模型能力

视频内容理解

多模态对话生成

指令跟随

视频问答

使用案例

研究

多模态对话系统研究

用于研究和开发多模态对话系统，探索视频和文本的交互方式。

教育

视频内容问答

用于教育场景中，根据视频内容生成问答和解释。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

AIbase是一个专注于MCP服务的平台，为AI开发者提供高质量的模型上下文协议服务，助力AI应用开发。

简体中文

热门模型

Llama 3 Typhoon V1.5x 8b Instruct

Cadet Tiny

Roberta Base Chinese Extractive Qa

热门模型分类

热门标签

Llava NeXT Video 7B DPO

模型简介

模型特点

模型能力

使用案例

LLaVA-Next-Video 模型卡片

模型详情

许可协议

模型问题反馈

用途说明

训练数据集

图像数据

视频数据

评估数据集