D

Doge 160M

由 SmallDoge 开发
Doge 160M 是一个采用动态掩码注意力机制的小型语言模型,由 SmallDoge 社区训练,支持文本生成任务。
下载量 4,227
发布时间 : 2/15/2025
模型介绍
内容详情
替代品

模型简介

Doge 160M 是一个基于 Transformer 架构的小型语言模型,采用动态掩码注意力机制进行序列变换,并可使用多层感知机或跨域专家混合进行状态转换。该模型适用于文本生成任务,并在多个基准测试中表现出色。

模型特点

动态掩码注意力机制
使 Transformer 能在训练时使用自注意力机制,在推理时使用状态空间,提高效率。
跨域专家混合
可直接继承多层感知机的权重进行进一步训练,提升模型性能。
高效训练
在 RTX 4090 GPU 上仅需 522 小时完成训练,适合资源有限的环境。

模型能力

文本生成
自然语言处理

使用案例

文本生成
对话生成
用于生成自然对话回复。
在 TriviaQA 和 HellaSwag 等基准测试中表现良好。
内容创作
用于生成短文本内容,如社交媒体帖子或简短文章。