M

Molm 700M 4B

由 ibm-research 开发
MoLM是基于混合专家(MoE)架构的语言模型系列,700M-4B版本总参数量40亿,计算消耗相当于7亿参数的稠密模型
下载量 36
发布时间 : 9/13/2023
模型介绍
内容详情
替代品

模型简介

MoLM系列语言模型采用混合专家架构,在保持高参数量的同时通过动态激活机制降低计算消耗,适用于文本生成和理解任务

模型特点

高效计算架构
通过混合专家设计实现高参数容量与低计算消耗的平衡
模块化推理
每token仅激活部分专家模块(本模型激活4个模块)
大规模预训练
基于3000亿token公开数据训练完成

模型能力

文本生成
语言理解
问答系统

使用案例

知识问答
开放域问答
回答各类常识性问题
在TriviaQA测试中五样本准确率达16.49%
代码生成
Python代码补全
根据描述生成Python代码片段
HumanEval测试通过率@100达20.27%