M

MQT LLaVA 7b

由 gordonhu 开发
MQT-LLaVA是一个开源的多模态聊天机器人模型,基于Transformer架构,通过微调LLaMA/Vicuna在GPT生成的多模态指令数据上训练而成。
下载量 349
发布时间 : 5/28/2024

模型简介

MQT-LLaVA是一个用于多模态大模型和聊天机器人研究的开源模型,能够处理图像和文本输入并生成文本输出。

模型特点

开源模型
完全开源,可供研究和商业使用(遵循LLAMA 2许可证)
多模态处理能力
能够同时处理图像和文本输入,生成连贯的文本响应
大规模训练数据
使用了超过100万条多模态训练数据,包括图像-文本对和指令数据

模型能力

多模态对话
视觉问答
图像理解与描述
文本生成
指令跟随

使用案例

学术研究
多模态大模型研究
用于探索视觉-语言联合表示学习
聊天机器人开发
构建能够理解图像内容的对话系统
教育应用
视觉辅助学习
帮助学生通过图像理解复杂概念
AIbase
智启未来,您的人工智能解决方案智库
简体中文