开源多模态聊天机器人llava-pretrain-vicuna-7b-v1.3

Llava Pretrain Vicuna 7b V1.3

由 liuhaotian 开发

LLaVA 是一个开源多模态聊天机器人，基于 LLaMA/Vicuna 在 GPT 生成的多模态指令跟随数据上进行微调训练而成。

下载量 54

发布时间 : 8/2/2023

模型简介

LLaVA 是一个基于 Transformer 架构的自回归语言模型，主要用于研究大型多模态模型和聊天机器人。

多模态能力

结合视觉和语言理解能力，能够处理图像和文本的联合任务

指令跟随

能够理解和执行复杂的多模态指令

开源模型

基于开源的 LLaMA/Vicuna 模型构建

图像-文本理解

多模态对话

视觉问答

图像描述生成

研究

多模态模型研究

用于研究视觉-语言联合表示学习

聊天机器人开发

作为多模态聊天机器人的基础模型

教育

视觉辅助学习

帮助学生理解图像内容并回答问题

属性	详情
模型类型	LLaVA是一个开源聊天机器人，通过在GPT生成的多模态指令遵循数据上微调LLaMA/Vicuna进行训练。它是基于Transformer架构的自回归语言模型。
模型日期	LLaVA - Pretrain - Vicuna - 7B - v1.3于2023年7月训练。
更多信息的论文或资源	https://llava-vl.github.io/