M

Moe LLaVA Qwen 1.8B 4e

由 LanguageBind 开发
MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型,通过稀疏激活参数实现高效的多模态学习
下载量 176
发布时间 : 1/23/2024
模型介绍
内容详情
替代品

模型简介

MoE-LLaVA结合了视觉和语言理解能力,采用专家混合架构实现高效的多模态交互,在减少参数量的同时保持高性能

模型特点

高效参数利用
仅需30亿稀疏激活参数即可达到7B密集模型的性能
快速训练
在8张V100显卡上2天内完成训练
卓越性能
在多项视觉理解任务上超越更大规模的模型

模型能力

视觉问答
图像理解
多模态推理
物体识别
图像描述生成

使用案例

智能助手
图像内容问答
回答用户关于图像内容的各类问题
在物体幻觉基准测试中超越LLaVA-1.5-13B
内容理解
复杂场景理解
理解包含多个对象的复杂场景图像
在多项视觉理解数据集上达到LLaVA-1.5-7B相当水平