G

GRIN MoE

由 microsoft 开发
GRIN MoE是一款参数高效的语言模型,仅需66亿激活参数,就能在编码和数学等多种任务中表现出色。
下载量 587
发布时间 : 9/10/2024

模型简介

GRIN MoE是一款基于梯度估计的混合专家语言模型,具有参数高效、训练策略独特等特点,适用于多种通用人工智能任务。

模型特点

参数高效
仅需66亿激活参数,就能在多种任务中取得出色表现
独特的梯度估计方法
使用SparseMixer-v2估计与专家路由相关的梯度
高效的训练策略
在不使用专家并行和令牌丢弃的情况下进行MoE训练

模型能力

文本生成
代码生成
数学推理
逻辑推理
常识推理

使用案例

内存/计算受限的环境
边缘设备部署
在资源有限的设备上运行高效推理
低延迟响应
教育领域
数学问题解答
解决复杂的数学问题
GSM-8K基准测试得分90.4
编程教学辅助
生成和解释代码
HumanEval基准测试得分74.4
研究领域
语言模型研究
作为生成式AI功能的构建块
AIbase
智启未来,您的人工智能解决方案智库
简体中文