Doge-20M-Instruct开源小语言模型 - 免费使用，支持指令跟随与问答！

首页

Doge 20M Instruct

由 SmallDoge 开发

Doge 20M 是一个基于动态掩码注意力机制的小型语言模型，支持指令跟随和问答任务。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #动态掩码注意力 #小型语言模型 #指令微调

下载量 5,010

发布时间 : 12/14/2024

模型简介

Doge采用动态掩码注意力机制进行序列转换，并可使用多层感知机或跨域混合专家进行状态转换。该模型在SmolTalk数据集上进行监督微调(SFT)，然后在UltraFeedback Binarized数据集上进行直接偏好优化(DPO)训练。

模型特点

动态掩码注意力机制

使Transformer能在训练时使用自注意力机制，在推理时使用状态空间

跨域混合专家

可直接继承多层感知机的权重进行进一步训练

高效推理

在i7-11代CPU上达到142 tokens/秒的推理速度

模型能力

指令跟随

问答生成

文本生成

使用案例

对话系统

日常对话

用于构建聊天机器人进行日常对话

问答系统

知识问答

用于回答用户提出的各种问题

🚀 Doge 20M Instruct

Doge 20M Instruct 模型采用动态掩码注意力进行序列转换，在训练时使用自注意力机制，推理时采用状态空间方法。同时，它可以使用多层感知机或跨域专家混合模型进行状态转换，且跨域专家混合模型能直接继承多层感知机的权重以进行进一步训练。该模型由 SmallDoge 社区训练，详细的算法和模型架构相关论文即将发布，所有训练细节和代码可在 small-doge 仓库中查看。

🚀 快速开始

Doge 采用动态掩码注意力进行序列转换，可使用多层感知机或跨域专家混合模型进行状态转换。动态掩码注意力使 Transformer 能在训练时使用自注意力机制，在推理时使用状态空间方法，而跨域专家混合模型可直接继承多层感知机的权重进行进一步训练。此模型由 SmallDoge 社区训练，详细的算法和模型架构相关论文即将推出，所有训练细节和代码可在 small-doge 仓库中获取。

✨ 主要特性

独特的注意力机制：动态掩码注意力允许 Transformer 在训练和推理阶段采用不同的机制，提高效率和性能。
灵活的状态转换：可选择多层感知机或跨域专家混合模型进行状态转换，且跨域专家混合模型能继承多层感知机的权重。
社区驱动开发：由 SmallDoge 社区训练和维护。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig, TextStreamer

tokenizer = AutoTokenizer.from_pretrained("SmallDoge/Doge-20M-Instruct")
model = AutoModelForCausalLM.from_pretrained("SmallDoge/Doge-20M-Instruct", trust_remote_code=True)

generation_config = GenerationConfig(
      max_new_tokens=100, 
      use_cache=True, 
      do_sample=True, 
      temperature=0.8, 
      top_p=0.9,
      repetition_penalty=1.0
)
steamer = TextStreamer(
      tokenizer=tokenizer, 
      skip_prompt=True
)

prompt = "Hi, how are you doing today?"
conversation = [
      {"role": "user", "content": prompt}
]
inputs = tokenizer.apply_chat_template(
    conversation=conversation,
    tokenize=True,
    return_tensors="pt",
)

outputs = model.generate(
    inputs, 
    tokenizer=tokenizer,
    generation_config=generation_config, 
    streamer=steamer
)

📚 详细文档

模型训练

我们通过在 SmolTalk 上进行有监督微调（SFT），然后在 UltraFeedback Binarized 上进行直接偏好优化（DPO）来构建 Doge-Instruct 模型。

SFT 训练详情

模型	训练数据	轮数	内容长度	学习率	批次大小	精度
Doge-20M-Instruct-SFT	smoltalk	2	2048	8e-4	0.25M	bfloat16
Doge-20M-MoE-Instruct-SFT	smoltalk	2	2048	8e-4	0.25M	bfloat16
Doge-60M-Instruct-SFT	smoltalk	2	2048	6e-4	0.25M	bfloat16
Doge-120M-MoE-Instruct-SFT	smoltalk	2	2048	6e-4	0.25M	bfloat16
Doge-160M-Instruct-SFT	smoltalk	2	2048	4e-4	0.25M	bfloat16
Doge-320M-Instruct-SFT	smoltalk	2	2048	2e-4	0.25M	bfloat16

DPO 训练详情

模型	训练数据	轮数	内容长度	学习率	批次大小	精度
Doge-20M-Instruct	ultrafeedback_binarized	2	1024	8e-5	0.125M	bfloat16
Doge-20M-MoE-Instruct	ultrafeedback_binarized	2	1024	8e-5	0.125M	bfloat16
Doge-60M-Instruct	ultrafeedback_binarized	2	1024	6e-5	0.125M	bfloat16
Doge-120M-MoE-Instruct	ultrafeedback_binarized	2	1024	6e-5	0.125M	bfloat16
Doge-160M-Instruct	ultrafeedback_binarized	2	1024	4e-5	0.125M	bfloat16
Doge-320M-Instruct	ultrafeedback_binarized	2	1024	2e-5	0.125M	bfloat16

模型评估

模型	IFEval（提示严格准确率）	MMLU	BBH	ARC	PIQA	HellaSwag	i7 - 11 CPU 上的每秒令牌数
Doge-20M-Instruct	9.2	26.3	18.3	29.2	57.8	27.8	142
Doge-20M-MoE-Instruct	13.7	26.5	26.3	31.1	58.2	27.9	132
Doge-60M-Instruct	9.4	27.5	27.7	37.5	61.4	32.1	62
Doge-120M-MoE-Instruct	24.4	28.2	30.1	44.2	62.1	36.3	58
Doge-160M-Instruct	16.8	29.7	29.1	42.8	64.1	37.1	28
Doge-320M-Instruct	28.5	30.3	31.9	51.7	71.0	50.6	16

训练过程可视化

SFT：
DPO：

训练环境

镜像：nvcr.io/nvidia/pytorch:24.12 - py3
硬件：1x NVIDIA RTX 4090
软件：Transformers, TRL

🔧 技术细节

该模型使用动态掩码注意力进行序列转换，可选择多层感知机或跨域专家混合模型进行状态转换。动态掩码注意力使 Transformer 在训练和推理阶段采用不同的机制，提高了效率和性能。跨域专家混合模型能够直接继承多层感知机的权重，便于进一步训练。

📄 许可证

本项目采用 Apache - 2.0 许可证。

📚 引用

@misc{smalldoges,
  title={SmallDoges: A Family of Dynamic UltraFast Small Language Models}, 
  author={Jingze, Shi and Yifan, Wu and Bingheng, Wu and Yuyu, Luo},
  year={2025},
  month={March},
  url={https://github.com/SmallDoges/small-doge}
}