LLaVA-13b-delta-v0开源聊天机器人 - 基于多模态数据支持自然对话体验

Llava 13b Delta V0

由 liuhaotian 开发

LLaVA是基于LLaMA/Vicuna通过GPT生成的多模态指令跟随数据微调的开源聊天机器人，属于基于Transformer架构的自回归语言模型。

下载量 352

发布时间 : 4/17/2023

模型简介

LLaVA是一个多模态大模型，结合了视觉和语言处理能力，主要用于多模态大模型及聊天机器人的学术研究。

多模态能力

结合视觉和语言处理能力，能够理解和生成与图像相关的文本内容。

指令跟随

通过GPT生成的多模态指令跟随数据微调，能够更好地理解和执行复杂的指令。

开源

基于Apache 2.0许可证开源，方便学术研究和二次开发。

多模态指令跟随

视觉推理

科学问答

图像描述生成

复杂推理

学术研究

多模态大模型研究

用于研究多模态大模型的性能和能力。

视觉推理

用于研究模型在视觉推理任务上的表现。

在ScienceQA数据集上，本模型与GPT-4的协同表现刷新了该数据集的最优成绩。

教育

科学问答

用于教育领域的科学问答任务。

属性	详情
模型类型	LLaVA是一个开源聊天机器人，通过在GPT生成的多模态指令遵循数据上微调LLaMA/Vicuna训练而成。它是一个基于Transformer架构的自回归语言模型。
模型日期	LLaVA于2023年4月完成训练。
更多信息的论文或资源	https://llava-vl.github.io/
许可证	Apache License 2.0
关于模型的问题或建议反馈处	https://github.com/haotian-liu/LLaVA/issues