LLaVA-Lightning-7B-delta-v1-1开源聊天机器人 - 免费使用支持多模态对话交流

首页

Llava Lightning 7B Delta V1 1

由 liuhaotian 开发

LLaVA是基于LLaMA/Vicuna通过GPT生成的多模态指令跟随数据微调的开源聊天机器人

文本生成图像

Transformers

开源协议:Apache-2.0 #多模态指令跟随 #视觉语言融合 #学术研究专用

下载量 699

发布时间 : 5/3/2023

模型简介

一个结合视觉与语言理解的多模态大模型，主要用于学术研究领域的多模态交互和指令跟随任务

模型特点

多模态融合

结合视觉与语言理解能力，可处理图像和文本的联合输入

指令跟随

通过GPT生成的指令数据进行微调，能够遵循复杂的多模态指令

轻量级训练

Lightning版本经过优化训练，相比原始版本更高效

模型能力

图像理解

视觉问答

多模态对话

图像描述生成

复杂视觉推理

使用案例

学术研究

多模态交互研究

用于探索视觉与语言模型结合的交互方式

视觉推理基准测试

在ScienceQA等数据集上评估多模态理解能力

与GPT-4协同达到当前最优性能

🚀 LLaVA模型卡片

LLaVA是一个开源聊天机器人，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna而训练得到，可用于多模态大模型和聊天机器人的研究。

🚀 快速开始

⚠️ 重要提示

此“增量模型”不能直接使用。用户必须将其应用于原始LLaMA权重之上，才能获得实际的LLaVA权重。具体说明请见https://github.com/haotian-liu/LLaVA#llava-weights 。

✨ 主要特性

LLaVA是一个基于Transformer架构的自回归语言模型，通过在特定数据上微调训练得到，可用于多模态相关研究。

📚 详细文档

模型详情

属性	详情
模型类型	LLaVA是一个开源聊天机器人，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna而训练得到。它是一个基于Transformer架构的自回归语言模型。
模型日期	LLaVA-Lightning于2023年5月训练。
更多信息的论文或资源	https://llava-vl.github.io/
许可证	Apache许可证2.0
关于模型的问题或建议反馈处	https://github.com/haotian-liu/LLaVA/issues

预期用途

主要预期用途

LLaVA的主要用途是用于大型多模态模型和聊天机器人的研究。

主要预期用户

该模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

训练数据集

来自LAION/CC/SBU的558K经过过滤的图像-文本对，由BLIP添加标题。
80K GPT生成的多模态指令跟随数据。

评估数据集

对模型质量的初步评估是通过从COCO 2014验证集中随机抽取30张独特图像，创建一组90个视觉推理问题进行的，每个图像关联三种类型的问题：对话式、详细描述和复杂推理。使用GPT - 4来评判模型输出。
还在ScienceQA数据集上对模型进行了评估。与GPT - 4的协同在该数据集上创造了新的最优成绩。更多详情请见https://llava-vl.github.io/ 。