MQT LLaVA 7b

M

MQT LLaVA 7b

由 gordonhu 开发

MQT-LLaVA是一个开源的多模态聊天机器人模型，基于Transformer架构，通过微调LLaMA/Vicuna在GPT生成的多模态指令数据上训练而成。

文本生成图像

#多模态指令跟随 #学术VQA任务 #GPT生成数据微调

下载量 349

发布时间 : 5/28/2024

模型简介

MQT-LLaVA是一个用于多模态大模型和聊天机器人研究的开源模型，能够处理图像和文本输入并生成文本输出。

模型特点

开源模型

完全开源，可供研究和商业使用（遵循LLAMA 2许可证）

多模态处理能力

能够同时处理图像和文本输入，生成连贯的文本响应

大规模训练数据

使用了超过100万条多模态训练数据，包括图像-文本对和指令数据

模型能力

多模态对话

视觉问答

图像理解与描述

文本生成

指令跟随

使用案例

学术研究

多模态大模型研究

用于探索视觉-语言联合表示学习

聊天机器人开发

构建能够理解图像内容的对话系统

教育应用

视觉辅助学习

帮助学生通过图像理解复杂概念

🚀 MQT-LLaVA模型卡片

MQT-LLaVA是一个开源聊天机器人模型，它基于Transformer架构，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna而得到。该模型可用于多模态大模型和聊天机器人的研究。

✨ 主要特性

开源模型：MQT-LLaVA是一个开源的聊天机器人模型。
多模态处理：能够处理图像和文本输入，并生成相应的文本输出。
基于Transformer架构：采用了Transformer架构，具有强大的语言理解和生成能力。

📦 安装指南

文档未提供安装步骤，故跳过该章节。

📚 详细文档

模型详情

属性	详情
模型类型	MQT-LLaVA是一个通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna而训练的开源聊天机器人。它是一个基于Transformer架构的自回归语言模型。
模型日期	MQT-LLaVA-7B于2024年5月训练。论文

许可证

Llama 2遵循LLAMA 2社区许可证，版权归Meta Platforms, Inc.所有。

关于模型的问题或建议反馈地址： https://github.com/gordonhu608/MQT-LLaVA/issues

预期用途

主要预期用途： MQT-LLaVA的主要用途是用于多模态大模型和聊天机器人的研究。

主要目标用户：该模型的主要目标用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

训练数据集

来自LAION/CC/SBU的558K过滤后的图像 - 文本对，由BLIP添加标题。
158K GPT生成的多模态指令跟随数据。
450K面向学术任务的VQA混合数据。
40K ShareGPT数据。

评估数据集

包含11个基准测试的集合，其中包括4个学术VQA基准测试和7个最近专门为指令跟随LMMs提出的基准测试。

💻 使用示例

文档未提供代码示例，故跳过该章节。

🔧 技术细节

文档未提供具体的技术实现细节，故跳过该章节。

📄 许可证

Llama 2遵循LLAMA 2社区许可证，版权归Meta Platforms, Inc.所有。用户可在此处反馈关于模型的问题或建议。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24