D

Doge 20M Chinese

由 wubingheng 开发
Doge模型采用动态掩码注意力机制进行序列转换,可选择多层感知机或跨域专家混合进行状态转换。
下载量 65
发布时间 : 4/11/2025
模型介绍
内容详情
替代品

模型简介

Doge模型是一个中文文本生成模型,采用动态掩码注意力机制,支持在训练和推理时切换不同的状态转换机制。

模型特点

动态掩码注意力机制
使Transformer能在训练时使用自注意力机制,在推理时切换至状态空间机制。
跨域专家混合
可直接继承多层感知机的权重进行后续训练。

模型能力

中文文本生成

使用案例

文本生成
对话生成
用于生成自然语言对话