Moe LLaVA StableLM 1.6B 4e

由 LanguageBind 开发

MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型，通过稀疏激活参数实现高效的多模态学习。

文本生成图像

Transformers

开源协议:Apache-2.0 #稀疏激活专家混合 #高效多模态学习 #低参数量高性能

下载量 125

发布时间 : 1/23/2024

模型介绍

内容详情

替代品

模型简介

该模型采用专家混合架构，专注于视觉语言理解任务，能够在多项基准测试中达到或超越更大规模模型的性能。

模型特点

高效参数利用

仅需30亿稀疏激活参数即可达到7B规模模型的性能

卓越性能

在多项视觉理解任务上达到LLaVA-1.5-7B水平，部分任务超越13B模型

高效训练

可在8张V100显卡上2日内完成训练

模型能力

视觉语言理解

多模态学习

图像分析

文本生成

使用案例

视觉理解

图像描述生成

为输入图像生成准确的文字描述

在物体幻觉基准测试中表现优异

视觉问答

回答关于图像内容的复杂问题

达到或超越更大规模模型的性能

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

AIbase是一个专注于MCP服务的平台，为AI开发者提供高质量的模型上下文协议服务，助力AI应用开发。

简体中文

热门模型

Llama 3 Typhoon V1.5x 8b Instruct

Cadet Tiny

Roberta Base Chinese Extractive Qa

热门模型分类

热门标签

Moe LLaVA StableLM 1.6B 4e

模型简介

模型特点

模型能力

使用案例

license: apache-2.0

MoE-LLaVA：专家混合架构的大规模视觉语言模型

若喜欢本项目，请点击GitHub右上角Star⭐关注最新动态

📰 最新动态

😮 核心亮点

🔥 参数量少，性能强劲

🚀 简洁架构，稀疏路径实现多模态交互