S
Seerattention QwQ 32B AttnGates
由 SeerAttention 开发
为QwQ-32B模型引入注意力门控(AttnGates)权重的适配器,通过动态块级稀疏性加速长上下文计算
下载量 35
发布时间 : 4/25/2025
模型简介
本仓库包含SeerAttention为QwQ-32B模型引入的注意力门控权重,通过可学习的注意力门控模块加速大语言模型的预填充阶段计算,同时保持模型完整性。
模型特点
动态块级稀疏性
通过注意力门控模块实现动态块级稀疏性,加速计算密集的预填充阶段
参数高效训练
采用自蒸馏框架训练门控模块,无需昂贵地重新训练整个模型
定制计算内核
使用定制的块稀疏FlashAttention内核实现高效推理计算
注意力模式保留
门控模块学习模仿原始模型的二维最大池化注意力模式,保持模型完整性
模型能力
长上下文处理
高效注意力计算
动态稀疏推理
使用案例
高效推理
长文档处理
加速长文档的预填充阶段计算
通过动态稀疏性显著减少计算开销
大模型部署
降低大语言模型在实际部署中的计算资源需求
保持模型性能的同时提高推理效率
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文