LLaVA-7b-delta-v0开源聊天机器人 - 免费支持视觉与语言多模态交互

首页

Llava 7b Delta V0

由 liuhaotian 开发

LLaVA是基于LLaMA/Vicuna通过GPT生成的多模态指令跟随数据微调的开源聊天机器人，支持视觉与语言的多模态交互。

文本生成图像

Transformers

开源协议:Apache-2.0 #多模态指令跟随 #图文对话生成 #学术研究专用

下载量 131

发布时间 : 4/30/2023

模型简介

LLaVA是一个开源的多模态聊天机器人，结合了视觉与语言处理能力，主要用于学术研究和多模态交互任务。

模型特点

多模态能力

结合视觉与语言处理能力，支持图像与文本的交互。

指令跟随

通过GPT生成的多模态指令跟随数据微调，能够理解并执行复杂的多模态指令。

开源

采用Apache 2.0许可证，允许自由使用和修改。

模型能力

视觉问答

图像描述生成

多模态对话

复杂推理

使用案例

学术研究

多模态模型研究

用于研究视觉与语言结合的多模态模型性能。

视觉问答系统

构建基于图像的问答系统，支持复杂推理和细节描述。

在ScienceQA数据集中与GPT-4协同刷新了最优记录。

教育

科学问答辅助

用于教育场景中的科学问题解答和知识传递。

🚀 LLaVA模型卡片

LLaVA是一个通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna而训练的开源聊天机器人，可用于多模态大模型和聊天机器人的研究。

🚀 快速开始

⚠️ 重要提示

此“增量模型”不能直接使用。用户必须将其应用于原始LLaMA权重之上，才能获得实际的LLaVA权重。具体说明请参见https://github.com/haotian-liu/LLaVA#llava-weights 。

✨ 主要特性

LLaVA是一个基于Transformer架构的自回归语言模型，通过在特定数据上微调训练而来，可用于多模态大模型和聊天机器人的研究。

📚 详细文档

模型详情

属性	详情
模型类型	LLaVA是一个通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna而训练的开源聊天机器人。它是一个基于Transformer架构的自回归语言模型。
模型日期	LLaVA于2023年4月进行训练。
更多信息的论文或资源	https://llava-vl.github.io/
许可证	Apache License 2.0
关于模型问题或评论的反馈地址	https://github.com/haotian-liu/LLaVA/issues

预期用途

主要预期用途

LLaVA的主要用途是用于多模态大模型和聊天机器人的研究。

主要预期用户

该模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

训练数据集

从CC3M中筛选出的595K图像 - 文本对。
150K GPT生成的多模态指令跟随数据。

评估数据集

对模型质量进行了初步评估，从COCO 2014验证集中随机抽取30张独特图像，创建了一组90个视觉推理问题，每个图像关联三种类型的问题：对话式、详细描述和复杂推理。利用GPT - 4对模型输出进行评判。
还在ScienceQA数据集上对模型进行了评估。与GPT - 4的协同在该数据集上创造了新的最优结果。更多详情请参见https://llava-vl.github.io/ 。