llava-v1.5-7b开源多模态聊天机器人 - 免费实现图文交互对话体验

Llava V1.5 7b

由 liuhaotian 开发

LLaVA 是一款开源多模态聊天机器人，基于 LLaMA/Vicuna 微调，支持图文交互。

下载量 1.4M

发布时间 : 10/5/2023

模型简介

通过对 LLaMA/Vicuna 进行微调，并基于 GPT 生成的多模态指令跟随数据训练而成的开源聊天机器人，具备图文理解和生成能力。

多模态理解

同时处理图像和文本输入，实现跨模态交互

指令跟随

能够理解和执行复杂的多模态指令

开源可微调

基于开源模型架构，支持进一步定制和优化

图像描述生成

视觉问答

多模态对话

指令跟随

跨模态推理

学术研究

多模态模型研究

用于探索视觉-语言联合表示学习

智能助手

图文交互助手

构建能理解图像内容的对话系统

属性	详情
模型类型	LLaVA是一个开源的聊天机器人，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna进行训练。它是一个基于Transformer架构的自回归语言模型。
模型日期	LLaVA - v1.5 - 7B于2023年9月进行训练。
更多信息的论文或资源	https://llava-vl.github.io/