LLaVA开源多模态聊天机器人 - 免费使用，实现多模态对话交互体验

Llava V1.5 Mlp2x 336px Pretrain Vicuna 13b V1.5

由 liuhaotian 开发

LLaVA 是一个开源多模态聊天机器人，通过对 LLaMA/Vicuna 在 GPT 生成的多模态指令跟随数据上进行微调训练而成。

下载量 66

发布时间 : 10/5/2023

模型简介

LLaVA 是一个基于 Transformer 架构的自回归语言模型，主要用于大型多模态模型和聊天机器人的研究。

多模态能力

结合视觉和语言理解能力，能够处理图像和文本输入

指令跟随

经过微调训练，能够理解和执行复杂的多模态指令

开源可扩展

基于开源模型构建，便于研究和扩展

图像理解

视觉问答

图像描述生成

多模态对话

指令跟随

研究

多模态模型研究

用于探索视觉语言模型的能力和局限性

人机交互研究

研究基于视觉的对话系统

应用开发

智能助手

开发能够理解图像内容的智能对话助手

教育工具

创建能够解释图像内容的教育应用

属性	详情
模型类型	LLaVA是一个开源聊天机器人，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna训练得到。它是一个基于Transformer架构的自回归语言模型。
模型日期	LLaVA - v1.5 - MLP2x - 336px - Pretrain - Vicuna - 13B - v1.5于2023年9月完成训练。
更多信息的论文或资源	https://llava-vl.github.io/

属性	详情
主要预期用途	LLaVA的主要用途是用于大型多模态模型和聊天机器人的研究。
主要目标用户	该模型的主要目标用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。