M

Minicpm S 1B Sft

由 openbmb 开发
MiniCPM-S-1B-sft 是一个基于激活稀疏化技术优化的1B参数规模语言模型,通过ProSparse方法实现高稀疏性推理加速,同时保持与原始模型相当的性能。
下载量 169
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

该模型采用ProSparse训练方法,将FFNs的激活函数替换为ReLU并进行渐进稀疏正则化,最终实现高达87.89%的稀疏性。适用于需要高效推理的场景。

模型特点

高激活稀疏性
通过ProSparse方法实现87.89%的稀疏性,显著高于同类ReLU激活模型
高效推理加速
高稀疏性配合专用稀疏GPU算子,在PowerInfer框架下实现显著推理加速
性能保持
在保持与原始Swish激活模型相当性能的同时实现稀疏化
渐进稀疏训练
采用三阶段训练策略:激活函数替换、渐进稀疏正则化和激活阈值偏移

模型能力

文本生成
常识推理
代码生成
阅读理解
数学问题求解
知识问答

使用案例

高效推理应用
边缘设备部署
利用高稀疏性特点在资源受限设备上实现高效推理
在PowerInfer框架下实现显著加速
实时对话系统
适用于需要低延迟响应的聊天机器人场景
教育应用
编程学习辅助
帮助学生理解和生成代码
HumanEval评分42.04,MBPP评分41.38