D

Doge 20M Instruct

由 SmallDoge 开发
Doge 20M 是一个基于动态掩码注意力机制的小型语言模型,支持指令跟随和问答任务。
下载量 5,010
发布时间 : 12/14/2024

模型简介

Doge采用动态掩码注意力机制进行序列转换,并可使用多层感知机或跨域混合专家进行状态转换。该模型在SmolTalk数据集上进行监督微调(SFT),然后在UltraFeedback Binarized数据集上进行直接偏好优化(DPO)训练。

模型特点

动态掩码注意力机制
使Transformer能在训练时使用自注意力机制,在推理时使用状态空间
跨域混合专家
可直接继承多层感知机的权重进行进一步训练
高效推理
在i7-11代CPU上达到142 tokens/秒的推理速度

模型能力

指令跟随
问答生成
文本生成

使用案例

对话系统
日常对话
用于构建聊天机器人进行日常对话
问答系统
知识问答
用于回答用户提出的各种问题
AIbase
智启未来,您的人工智能解决方案智库
简体中文