MiniCPM-MoE-8x2B开源语言模型 - 多专家协作处理文本更高效

首页

Minicpm MoE 8x2B

由 openbmb 开发

MiniCPM-MoE-8x2B是一款基于Transformer架构的混合专家（MoE）语言模型，采用8个专家模块设计，每个token激活2个专家进行处理。

大型语言模型

Transformers

#MoE混合专家 #中文指令微调 #高效推理优化

下载量 6,377

发布时间 : 4/7/2024

模型简介

纯解码生成式语言模型，经过指令微调但未应用RLHF方法，适用于自然语言处理任务。

模型特点

混合专家架构

采用MoE架构设计，每层包含8个专家模块，每个token激活其中2个专家进行处理，提高模型效率。

指令微调

模型经过指令微调优化，但未应用RLHF方法，适合特定任务处理。

高效推理

支持使用vLLM框架进行推理，提供更高吞吐量。

模型能力

文本生成

问答系统

对话系统

使用案例

智能问答

地理知识问答

回答关于地理知识的复杂问题，如比较不同山脉的高度。

能准确回答山东省最高的山是泰山，并比较其与黄山的高度差距。

对话系统

开放域对话

进行自然流畅的开放域对话。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Minicpm MoE 8x2B

模型简介

模型特点

模型能力

使用案例

🚀 MiniCPM-MoE-8x2B

🚀 快速开始

基础用法

⚠️ 注意事项

📄 声明