llava-v1.5-13b开源多模态聊天机器人 - 支持图像文本交互免费部署

Llava V1.5 13b

由 liuhaotian 开发

LLaVA 是一个开源多模态聊天机器人，基于 LLaMA/Vicuna 微调并整合视觉能力，支持图像和文本的交互。

下载量 98.17k

发布时间 : 10/5/2023

模型简介

LLaVA 是一个结合视觉和语言理解能力的多模态模型，能够处理图像和文本输入，生成自然语言响应。主要用于研究大型多模态模型和聊天机器人应用。

多模态理解

同时处理图像和文本输入，理解视觉内容并生成相关响应

指令跟随

能够遵循复杂的多模态指令执行任务

大规模训练数据

使用超过百万条多模态数据训练，涵盖描述生成、指令跟随和VQA任务

图像内容理解

视觉问答

多模态对话

图像描述生成

跨模态推理

学术研究

多模态模型研究

用于探索视觉-语言联合表示学习

在12个基准测试中表现优异

教育应用

视觉辅助学习

通过图像和文本交互解释复杂概念

属性	详情
模型类型	LLaVA是一个开源的聊天机器人，通过在GPT生成的多模态指令遵循数据上微调LLaMA/Vicuna得到。它是一个基于Transformer架构的自回归语言模型。
模型日期	LLaVA - v1.5 - 13B于2023年9月训练。
更多信息的论文或资源	https://llava-vl.github.io/