D

Doge 320M

由 SmallDoge 开发
Doge是一个采用动态掩码注意力机制进行序列转换的模型,可使用多层感知器或跨域专家混合进行状态转换。
下载量 3,028
发布时间 : 3/10/2025
模型介绍
内容详情
替代品

模型简介

Doge模型由SmallDoge社区训练,支持文本生成任务,采用动态掩码注意力机制,在训练时使用自注意力机制,在推理时使用状态空间机制。

模型特点

动态掩码注意力机制
允许Transformer在训练时使用自注意力机制,在推理时使用状态空间机制。
跨域专家混合
可直接继承多层感知器的权重进行进一步训练。
高效训练
在RTX 4090 GPU上进行了高效训练,训练时间相对较短。

模型能力

文本生成
序列转换

使用案例

自然语言处理
对话生成
可用于生成自然语言对话响应。
生成流畅的对话内容
内容创作
可用于辅助写作和内容创作。
生成连贯的文本内容