动态掩码注意力

# 动态掩码注意力

Doge 20M Chinese

Doge模型采用动态掩码注意力机制进行序列转换，可选择多层感知机或跨域专家混合进行状态转换。

大型语言模型

Transformers 支持多种语言

Doge 120M MoE Instruct

Doge模型采用动态掩码注意力机制进行序列转换，并可使用多层感知机或跨域专家混合进行状态转换。

大型语言模型

Transformers 英语

Doge 320M Instruct

Doge 320M 指导版是一个基于动态掩码注意力的轻量级语言模型，采用监督微调(SFT)和直接偏好优化(DPO)训练，适用于问答和对话任务。

大型语言模型

Transformers 英语

Doge是一个采用动态掩码注意力机制进行序列转换的模型，可使用多层感知器或跨域专家混合进行状态转换。

大型语言模型

Transformers 支持多种语言

Doge 160M Reason Distill

Doge 160M 推理蒸馏版是一个基于动态掩码注意力机制和跨域混合专家的轻量级语言模型，专注于推理和问答任务。

大型语言模型

Transformers 英语

Doge 160M Instruct

Doge 160M 是一个基于动态掩码注意力机制的小型语言模型，采用监督微调(SFT)和直接偏好优化(DPO)训练而成。

大型语言模型

Transformers 英语

Doge 160M 是一个采用动态掩码注意力机制的小型语言模型，由 SmallDoge 社区训练，支持文本生成任务。

大型语言模型

Transformers 支持多种语言

Doge 20M Instruct

Doge 20M 是一个基于动态掩码注意力机制的小型语言模型，支持指令跟随和问答任务。

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24