P

Prosparse Llama 2 7b

由 SparseLLM 开发
基于LLaMA-2-7B的激活稀疏化大语言模型,通过ProSparse方法实现高稀疏率(89.32%)且保持原始性能
下载量 152
发布时间 : 2/19/2024
模型介绍
内容详情
替代品

模型简介

采用渐进式稀疏正则化训练的ReLU激活LLaMA-2变体,显著提升推理效率,适用于文本生成与理解任务

模型特点

高激活稀疏性
通过ProSparse方法实现89.32%的稀疏率,显著高于同类ReLU模型(如ReluLLaMA-7B的66.98%)
性能无损
在保持与原始Swish激活LLaMA-2相当任务性能的前提下实现稀疏化
推理加速
高稀疏性支持PowerInfer框架和定制GPU算子,实测可获得1.27-2.17倍加速
渐进式训练
三阶段训练流程:激活替换→渐进正则化→阈值偏移,有效平衡稀疏性与性能

模型能力

文本生成
代码生成
常识推理
阅读理解
数学推理

使用案例

高效推理
边缘设备部署
利用高稀疏性在资源受限设备实现高效推理
在PowerInfer框架下单A100 GPU达218.3 tokens/s
学术研究
稀疏化方法验证
作为激活稀疏化研究的基准模型
当前开源LLaMA同尺寸中最稀疏的激活模型