D

Doge 120M MoE Instruct

由 SmallDoge 开发
Doge模型采用动态掩码注意力机制进行序列转换,并可使用多层感知机或跨域专家混合进行状态转换。
下载量 240
发布时间 : 4/3/2025
模型介绍
内容详情
替代品

模型简介

Doge-120M-MoE-Instruct是一个基于动态掩码注意力机制和专家混合架构的指令微调语言模型,适用于问答和对话任务。

模型特点

动态掩码注意力机制
训练时使用自注意力机制,推理时使用状态空间机制,提高效率
跨域专家混合
能直接继承多层感知机的权重进行进一步训练
高效推理
在i7-11代CPU上达到58 tokens/秒的推理速度

模型能力

文本生成
问答系统
对话系统
指令理解

使用案例

对话系统
日常对话
用于构建聊天机器人进行日常对话
在SmolTalk数据集上微调,具有流畅的对话能力
问答系统
知识问答
回答用户提出的各类问题
在MMLU基准测试上达到28.2%准确率