高效注意力机制

# 高效注意力机制

Seerattention Decode Qwen3 4B AttnGates

提供 SeerAttention-R 论文中解码阶段的 AttnGate 权重，支持 Qwen3-4B 模型的推理任务

大型语言模型

Modernbert Base Squad2 V0.2

基于ModernBERT-base-nli微调的问答模型，支持长上下文处理

Tweety 7b Dutch V24a

Tweety-7b-dutch是一个专注于荷兰语的基础大语言模型，基于mistral架构，使用荷兰语分词器优化荷兰语文本处理能力。

大型语言模型

Transformers 其他

Mistral 7B Instruct V0.2 Sparsity 20 V0.1

Mistral-7B-Instruct-v0.2是基于Mistral-7B-Instruct-v0.1改进的指令微调大语言模型，采用Wanda剪枝方法压缩至2%稀疏度，无需重新训练即可保持竞争力性能。

大型语言模型

Mistral 7B Instruct V0.2 Sparsity 30 V0.1

Mistral-7B-Instruct-v0.2是基于Mistral-7B-Instruct-v0.1增强的指令微调大语言模型，采用Wanda剪枝方法实现30%稀疏化，无需重新训练即可保持竞争力性能。

大型语言模型

Mpt 7b 8k Instruct

MPT-7B-Instruct-8k 是一款用于长格式指令遵循的模型，尤其擅长对较长文档进行问答和总结。

大型语言模型

Transformers 其他

Nystromformer 4096

基于WikiText-103 v1数据集训练的长序列Nyströmformer模型，支持4096长度的序列处理

大型语言模型

Nystromformer 2048

基于WikiText-103数据集训练的Nystromformer模型，支持长序列处理（2048 tokens）

大型语言模型

Long T5 Tglobal Base

LongT5是基于T5架构的文本到文本转换模型，采用瞬态全局注意力机制高效处理长序列输入

大型语言模型英语

Bart Base Cnn R2 18.7 D23 Hybrid

这是一个经过剪枝优化的BART-base模型，专门针对CNN/DailyMail数据集进行微调，用于摘要生成任务。

Transformers 英语

Deit Tiny Distilled Patch16 224

该模型为蒸馏版数据高效图像Transformer（DeiT），在ImageNet-1k上以224x224分辨率进行预训练和微调，通过蒸馏从教师模型高效学习。

Chinese Bigbird Mini 1024

这是一个基于BigBird架构的中文预训练模型，针对中文文本处理进行了优化，支持长文本序列处理。

大型语言模型

Transformers 中文

Chinese Bigbird Base 4096

基于BigBird架构的中文预训练模型，支持4096长度的上下文处理

大型语言模型

Transformers 中文

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24