M

Moe LLaVA StableLM 1.6B 4e

由 LanguageBind 开发
MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型,通过稀疏激活参数实现高效的多模态学习。
下载量 125
发布时间 : 1/23/2024
模型介绍
内容详情
替代品

模型简介

该模型采用专家混合架构,专注于视觉语言理解任务,能够在多项基准测试中达到或超越更大规模模型的性能。

模型特点

高效参数利用
仅需30亿稀疏激活参数即可达到7B规模模型的性能
卓越性能
在多项视觉理解任务上达到LLaVA-1.5-7B水平,部分任务超越13B模型
高效训练
可在8张V100显卡上2日内完成训练

模型能力

视觉语言理解
多模态学习
图像分析
文本生成

使用案例

视觉理解
图像描述生成
为输入图像生成准确的文字描述
在物体幻觉基准测试中表现优异
视觉问答
回答关于图像内容的复杂问题
达到或超越更大规模模型的性能