S

Seerattention QwQ 32B AttnGates

由 SeerAttention 开发
为QwQ-32B模型引入注意力门控(AttnGates)权重的适配器,通过动态块级稀疏性加速长上下文计算
下载量 35
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

本仓库包含SeerAttention为QwQ-32B模型引入的注意力门控权重,通过可学习的注意力门控模块加速大语言模型的预填充阶段计算,同时保持模型完整性。

模型特点

动态块级稀疏性
通过注意力门控模块实现动态块级稀疏性,加速计算密集的预填充阶段
参数高效训练
采用自蒸馏框架训练门控模块,无需昂贵地重新训练整个模型
定制计算内核
使用定制的块稀疏FlashAttention内核实现高效推理计算
注意力模式保留
门控模块学习模仿原始模型的二维最大池化注意力模式,保持模型完整性

模型能力

长上下文处理
高效注意力计算
动态稀疏推理

使用案例

高效推理
长文档处理
加速长文档的预填充阶段计算
通过动态稀疏性显著减少计算开销
大模型部署
降低大语言模型在实际部署中的计算资源需求
保持模型性能的同时提高推理效率