Doge-160M开源小型语言模型 - 免费支持多种文本生成任务

首页

Doge 160M

由 SmallDoge 开发

Doge 160M 是一个采用动态掩码注意力机制的小型语言模型，由 SmallDoge 社区训练，支持文本生成任务。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #动态掩码注意力 #小型语言模型 #高效推理

下载量 4,227

发布时间 : 2/15/2025

模型简介

Doge 160M 是一个基于 Transformer 架构的小型语言模型，采用动态掩码注意力机制进行序列变换，并可使用多层感知机或跨域专家混合进行状态转换。该模型适用于文本生成任务，并在多个基准测试中表现出色。

模型特点

动态掩码注意力机制

使 Transformer 能在训练时使用自注意力机制，在推理时使用状态空间，提高效率。

跨域专家混合

可直接继承多层感知机的权重进行进一步训练，提升模型性能。

高效训练

在 RTX 4090 GPU 上仅需 522 小时完成训练，适合资源有限的环境。

模型能力

文本生成

自然语言处理

使用案例

文本生成

对话生成

用于生成自然对话回复。

在 TriviaQA 和 HellaSwag 等基准测试中表现良好。

内容创作

用于生成短文本内容，如社交媒体帖子或简短文章。

🚀 Doge 160M

Doge 160M 是一款文本生成模型，采用动态掩码注意力进行序列转换，可使用多层感知器或跨域专家混合进行状态转换。该模型由 SmallDoge 社区训练，在多个评估指标上表现良好。

🚀 快速开始

模型使用

>>> from transformers import AutoTokenizer, AutoModelForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("SmallDoge/Doge-160M")
>>> model = AutoModelForCausalLM.from_pretrained("SmallDoge/Doge-160M", trust_remote_code=True)
>>> inputs = tokenizer("Hey how are you doing?", return_tensors="pt")

>>> out = model.generate(**inputs, max_new_tokens=100)
>>> print(tokenizer.batch_decode(out))

✨ 主要特性

动态掩码注意力：允许 Transformer 在训练时使用自注意力，推理时使用状态空间。
跨域专家混合：可直接继承多层感知器的权重进行进一步训练。

📚 详细文档

模型训练

我们在 Smollm-Corpus 上对 Doge 进行预训练。如果你想继续预训练该模型，可以在这里找到未收敛的检查点。这些模型尚未针对指令进行微调，指令模型可在这里找到。

预训练详情

模型	训练数据	步数	内容长度	标记数	学习率	批量大小	精度	RTX 4090 GPU 小时数
Doge-20M	smollm-corpus	8k	2048	4B	8e-3	0.5M	bfloat16	14
Doge-60M	smollm-corpus	16k	2048	16B	6e-3	1M	bfloat16	128
Doge-160M	smollm-corpus	24k	2048	32B	4e-3	1.5M	bfloat16	522
Doge-320M	smollm-corpus	32k	2048	64B	2e-3	2M	bfloat16	1856

评估结果

模型	MMLU	TriviaQA	ARC	PIQA	HellaSwag	OBQA	Winogrande	i7 - 11 CPU 上的标记数/秒
Doge-20M	25.4	0.03	29.8	58.4	27.3	25.6	50.2	142
Doge-60M	26.4	0.2	37.9	61.4	31.5	28.0	50.8	62
Doge-160M	29.2	4.8	44.4	70.1	43.4	34.4	52.2	28
Doge-320M	35.6	9.4	55.4	73.9	52.7	37.9	59.3	16

训练过程

训练环境

镜像：nvcr.io/nvidia/pytorch:24.12 - py3
硬件：1x NVIDIA RTX 4090
软件：Transformers

📄 许可证

本项目采用 Apache - 2.0 许可证。

📖 引用

@misc{smalldoges,
  title={SmallDoges: A Family of Dynamic UltraFast Small Language Models}, 
  author={Jingze, Shi and Yifan, Wu and Bingheng, Wu and Yuyu, Luo},
  year={2025},
  month={March},
  url={https://github.com/SmallDoges/small-doge}
}