许可证: mit
模型详情:QuaLA-MiniLM
该模型采用名为QuaLA-MiniLM的全新方法,融合了知识蒸馏、长度自适应变换器(LAT)技术与低位量化。我们在Dynamic-TinyBERT方法基础上进行扩展,通过训练单一模型使其能适配任意计算预算的推理场景,在SQuAD1.1数据集上实现了卓越的精度-效率平衡。作者对比其他高效方法发现,该模型可实现最高8.8倍加速且精度损失不足1%。相关代码已在GitHub开源。本文还探讨了该领域其他相关工作,包括动态变换器及其他知识蒸馏方法。
QuaLA-MiniLM训练流程
为在特定计算预算下实现最佳精度-效率平衡,我们通过进化搜索确定最优长度配置参数。
模型详情 |
说明 |
语言 |
英语 |
开发机构 |
英特尔 |
发布日期 |
2023年5月4日 |
版本 |
1 |
类型 |
NLP-微型语言模型 |
架构 |
"本研究扩展Dynamic-TinyBERT以生成更高效率模型:首先采用从RoBERTa-Large教师模型蒸馏的更小型MiniLM模型(而非BERT-base);其次应用LAT方法实现长度自适应性;最终通过8位量化进一步提升效率。所得QuaLA-MiniLM(量化长度自适应MiniLM)模型仅用30%参数量即超越BERT-base,在SQuAD1.1基准测试中展现出优于其他高效方法的精度-加速平衡(最高8.8倍加速且精度损失<1%)。该模型遵循LAT理念,提供广谱的精度-效率平衡点,无需针对曲线各点重新训练。" |
论文/资源 |
https://arxiv.org/pdf/2210.17114.pdf |
许可证 |
待定 |
咨询渠道 |
英特尔开发者社区Discord |
用途范围 |
说明 |
主要用途 |
待定 |
目标用户 |
需要高效微型语言模型进行下游任务的研究者 |
非适用场景 |
不得用于制造敌对或排斥性环境 |
使用方法
代码示例即将发布!
import ...
性能指标
SQuAD1.1评估数据集上的推理表现。所有长度自适应(LA)模型均展示两种运行模式:无token丢弃的标准模式,以及根据精度约束通过进化搜索确定最优token丢弃配置的高效模式。
模型 |
体积(Mb) |
各层token数 |
F1精度 |
延迟(ms) |
FLOPs |
加速比 |
BERT-base |
415.4723 |
(384,384,384,384,384,384) |
88.5831 |
56.5679 |
3.53E+10 |
1x |
TinyBERT-ours |
253.2077 |
(384,384,384,384,384,384) |
88.3959 |
32.4038 |
1.77E+10 |
1.74x |
QuaTinyBERT-ours |
132.0665 |
(384,384,384,384,384,384) |
87.6755 |
15.5850 |
1.77E+10 |
3.63x |
MiniLMv2-ours |
115.0473 |
(384,384,384,384,384,384) |
88.7016 |
18.2312 |
4.76E+09 |
3.10x |
QuaMiniLMv2-ours |
84.8602 |
(384,384,384,384,384,384) |
88.5463 |
9.1466 |
4.76E+09 |
6.18x |
LA-MiniLM |
115.0473 |
(384,384,384,384,384,384) |
89.2811 |
16.9900 |
4.76E+09 |
3.33x |
LA-MiniLM |
115.0473 |
(269,253,252,202,104,34) |
87.7637 |
11.4428 |
2.49E+09 |
4.94x |
QuaLA-MiniLM |
84.8596 |
(384,384,384,384,384,384) |
88.8593 |
7.4443 |
4.76E+09 |
7.6x |
QuaLA-MiniLM |
84.8596 |
(315,251,242,159,142,33) |
87.6828 |
6.4146 |
2.547E+09 |
8.8x |
训练与评估数据
数据信息 |
说明 |
数据集 |
SQuAD1.1数据集 |
目标 |
构建高效精准的基础语言模型 |
伦理考量
伦理事项 |
说明 |
数据来源 |
SQuAD1.1数据集 |
生命相关性 |
本模型不涉及人类生命或福祉的关键决策,仅基于标注的维基百科文章聚合 |
缓解措施 |
开发过程中未考虑额外风险缓解策略 |
风险与危害 |
需注意语言模型可能存在的偏见问题(参见Sheng等2021、Bender等2021研究),其预测可能包含涉及受保护群体、身份特征及敏感社会职业群体的有害刻板印象,其余风险尚不明确 |
注意事项
用户(包括直接使用者和下游开发者)应充分了解模型的风险、偏见与局限性。本模型无其他特殊注意事项。
引用信息
备注 |
说明 |
版本说明 |
本版本在摘要中添加了源代码引用说明。arXiv注:文本与arXiv:2111.09645存在重叠 |
学科分类 |
计算与语言(cs.CL) |
引用格式 |
arXiv:2210.17114 [cs.CL] |
文献链接 |
(或arXiv:2210.17114v2 [cs.CL]) https://doi.org/10.48550/arXiv.2210.17114 |