QuaLA - MiniLM开源微型语言模型，SQuAD1.1数据集加速8.8倍且精度损失小

首页

Dynamic Minilmv2 L6 H384 Squad1.1 Int8 Static

由 Intel 开发

QuaLA-MiniLM是英特尔开发的微型语言模型，融合知识蒸馏、长度自适应变换器和8位量化技术，在SQuAD1.1数据集上实现最高8.8倍加速且精度损失不足1%。

大型语言模型

Transformers

开源协议:MIT #长度自适应推理 #8位量化模型 #知识蒸馏优化

下载量 172

发布时间 : 11/21/2022

模型简介

该模型通过动态调整计算资源分配实现高效推理，适用于需要平衡精度与效率的自然语言处理任务。

模型特点

动态计算分配

通过LAT技术实现各层token数的动态调整，适应不同计算预算

高效量化

采用8位量化技术减少模型体积，量化后体积仅为原模型的30%

知识蒸馏

从RoBERTa-Large教师模型蒸馏知识，保持小模型的高精度

模型能力

文本理解

问答系统

高效推理

使用案例

智能问答

维基百科内容问答

基于SQuAD1.1数据集的问答应用

在保持87.68% F1精度下实现8.8倍加速

边缘计算

移动端问答系统

在资源受限设备上部署高效语言模型

量化后模型体积仅84.86MB

🚀 模型详情：QuaLA - MiniLM

本模型是一种名为QuaLA - MiniLM的全新方法的成果，该方法结合了知识蒸馏、长度自适应Transformer（LAT）技术以及低比特量化。我们对Dynamic - TinyBERT方法进行了扩展。此方法训练出的单一模型能够在给定计算预算的情况下适应任何推理场景，在SQuAD1.1数据集上实现了卓越的准确率 - 效率权衡。作者将他们的方法与其他高效方法进行了比较，发现其在准确率损失小于1%的情况下，速度提升了高达8.8倍。他们还在GitHub上公开了代码。文章还讨论了该领域的其他相关工作，包括动态Transformer和其他知识蒸馏方法。

✨ 主要特性

高效性：在SQuAD1.1数据集上，实现了高达8.8倍的速度提升，同时准确率损失小于1%。
适应性：单一模型可在给定计算预算下适应任何推理场景。
创新性：结合了知识蒸馏、长度自适应Transformer（LAT）技术和低比特量化。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

import ...

📚 详细文档

QuaLA - MiniLM训练过程

为了在特定计算预算下使模型达到最佳的准确率 - 效率权衡，我们将长度配置设置为通过进化搜索找到的最佳设置，以匹配我们的计算约束。

模型信息

属性	详情
语言	英文
模型作者所属公司	Intel
日期	2023年5月4日
版本	1
类型	NLP - 小型语言模型
架构	在这项工作中，我们扩展了Dynamic - TinyBERT以生成一个效率更高的模型。首先，我们使用一个更小的MiniLM模型，该模型是从RoBERTa - Large教师模型中蒸馏而来，而非BERT - base。其次，我们应用LAT方法使模型具有长度适应性，最后，我们通过应用8位量化进一步提高模型的效率。由此产生的QuaLAMiniLM（量化长度自适应MiniLM）模型仅用30%的参数就优于BERT - base，并且在具有挑战性的SQuAD1.1基准测试中展示了优于任何其他效率方法的准确率 - 加速权衡（在准确率损失<1%的情况下，速度提升高达8.8倍）。遵循LAT提出的概念，它提供了广泛的准确率 - 效率权衡点，同时减轻了为准确率 - 效率曲线上的每个点重新训练模型的需求。
论文或其他资源	https://arxiv.org/pdf/2210.17114.pdf
许可证	待确定
问题或评论	Intel DevHub Discord

预期用途

预期用途	详情
主要预期用途	待确定
主要预期用户	任何需要高效小型语言模型用于其他下游任务的人。
非预期用途	该模型不应被用于故意为人们创造敌对或排斥性的环境。

指标（模型性能）

在SQuAD1.1评估数据集上的推理性能。对于所有长度自适应（LA）模型，我们展示了在不进行令牌丢弃的情况下运行模型的性能，以及根据为满足我们的准确率约束而找到的最佳长度配置在令牌丢弃配置下运行模型的性能。

模型	模型大小 (Mb)	每层令牌数	准确率 (F1)	延迟 (ms)	FLOPs	加速比
BERT - base	415.4723	(384,384,384,384,384,384)	88.5831	56.5679	3.53E + 10	1x
TinyBERT - ours	253.2077	(384,384,384,384,384,384)	88.3959	32.4038	1.77E + 10	1.74x
QuaTinyBERT - ours	132.0665	(384,384,384,384,384,384)	87.6755	15.5850 1.77E + 10	3.63x
MiniLMv2 - ours	115.0473	(384,384,384,384,384,384)	88.7016	18.2312	4.76E + 09	3.10x
QuaMiniLMv2 - ours	84.8602	(384,384,384,384,384,384)	88.5463	9.1466	4.76E + 09	6.18x
LA - MiniLM	115.0473	(384,384,384,384,384,384)	89.2811	16.9900	4.76E + 09	3.33x
LA - MiniLM	115.0473	(269, 253, 252, 202, 104, 34)	87.7637	11.4428	2.49E + 09	4.94x
QuaLA - MiniLM	84.8596	(384,384,384,384,384,384)	88.8593	7.4443	4.76E + 09	7.6x
QuaLA - MiniLM	84.8596	(315,251,242,159,142,33)	87.6828	6.4146	2.547E + 09	8.8x

训练和评估数据

训练和评估数据	详情
数据集	SQuAD1.1数据集
动机	为多个下游语言任务构建一个高效且准确的基础模型。

伦理考量

伦理考量	详情
数据	SQuAD1.1数据集
人类生活	该模型并非旨在为对人类生活或繁荣至关重要的决策提供信息。它是一组聚合的带标签的维基百科文章。
缓解措施	在模型开发过程中未考虑额外的风险缓解策略。
风险和危害	大量研究探讨了语言模型的偏差和公平性问题（例如，参见Sheng等人，2021年，以及Bender等人，2021年）。该模型生成的预测可能包括对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。除此之外，使用该模型所涉及的风险程度仍然未知。

注意事项和建议

用户（直接用户和下游用户）应了解该模型的风险、偏差和局限性。该模型没有额外的注意事项或建议。

BibTeX条目和引用信息

备注	详情
备注	在这个版本中，我们在摘要中添加了对源代码的引用。arXiv管理员注：与arXiv:2111.09645有文本重叠。
主题	计算与语言 (cs.CL)
引用格式	arXiv:2210.17114 [cs.CL]
-	（或对于此版本，引用arXiv:2210.17114v2 [cs.CL]）https://doi.org/10.48550/arXiv.2210.17114