llava-llama-2-13b-chat-lightning-preview开源多模态聊天机器人

首页

Llava Llama 2 13b Chat Lightning Preview

由 liuhaotian 开发

LLaVA是一个开源多模态聊天机器人模型，基于Transformer架构，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna而得。

文本生成图像

Transformers

#多模态对话 #视觉推理 #指令微调

下载量 2,122

发布时间 : 7/19/2023

模型简介

LLaVA主要用于多模态大模型和聊天机器人的研究，支持图像和文本的多模态处理能力，为计算机视觉、自然语言处理等领域的研究提供支持。

模型特点

多模态能力

基于GPT生成的多模态指令跟随数据进行微调，具备处理图像和文本的多模态能力。

Transformer架构

采用自回归语言模型，基于Transformer架构构建。

开源研究支持

为计算机视觉、自然语言处理等领域的研究人员和爱好者提供开源支持。

模型能力

图像理解

文本生成

视觉推理

多模态对话

使用案例

学术研究

多模态模型研究

用于研究图像和文本的多模态交互能力。

视觉推理任务

在ScienceQA数据集上评估，与GPT-4协同达到新的最优水平。

在ScienceQA数据集上达到最优性能

应用开发

智能聊天机器人

开发具备图像理解和对话能力的聊天机器人。

🚀 LLaVA模型卡片

LLaVA是一个开源聊天机器人模型，基于Transformer架构，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna而得。它主要用于多模态大模型和聊天机器人的研究，为计算机视觉、自然语言处理等领域的研究人员和爱好者提供支持。

✨ 主要特性

多模态能力：基于GPT生成的多模态指令跟随数据进行微调，具备处理图像和文本的多模态能力。
Transformer架构：采用自回归语言模型，基于Transformer架构构建。

📚 详细文档

模型详情

属性	详情
模型类型	LLaVA是一个开源聊天机器人，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna得到。它是一个基于Transformer架构的自回归语言模型。
模型日期	LLaVA-LLaMA-2-13B-Chat-Preview于2023年7月训练。
更多信息的论文或资源	https://llava-vl.github.io/

许可证

Llama 2遵循LLAMA 2社区许可证，版权归Meta Platforms, Inc.所有。

模型问题或建议反馈地址

https://github.com/haotian-liu/LLaVA/issues

预期用途

主要预期用途：LLaVA的主要用途是用于大型多模态模型和聊天机器人的研究。
主要预期用户：该模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

训练数据集

从LAION/CC/SBU中筛选出的558K图像-文本对，并由BLIP添加了标题。
80K由GPT生成的多模态指令跟随数据。

评估数据集

对模型质量进行了初步评估，从COCO 2014验证集中随机抽取30张独特图像，创建了一组90个视觉推理问题，每个图像关联三种类型的问题：对话式、详细描述和复杂推理。使用GPT - 4来评判模型输出。
还在ScienceQA数据集上对模型进行了评估，与GPT - 4的协同在该数据集上达到了新的最优水平。更多详情请见https://llava-vl.github.io/。