D

Dynamic Minilmv2 L6 H384 Squad1.1 Int8 Static

由 Intel 开发
QuaLA-MiniLM是英特尔开发的微型语言模型,融合知识蒸馏、长度自适应变换器和8位量化技术,在SQuAD1.1数据集上实现最高8.8倍加速且精度损失不足1%。
下载量 172
发布时间 : 11/21/2022
模型介绍
内容详情
替代品

模型简介

该模型通过动态调整计算资源分配实现高效推理,适用于需要平衡精度与效率的自然语言处理任务。

模型特点

动态计算分配
通过LAT技术实现各层token数的动态调整,适应不同计算预算
高效量化
采用8位量化技术减少模型体积,量化后体积仅为原模型的30%
知识蒸馏
从RoBERTa-Large教师模型蒸馏知识,保持小模型的高精度

模型能力

文本理解
问答系统
高效推理

使用案例

智能问答
维基百科内容问答
基于SQuAD1.1数据集的问答应用
在保持87.68% F1精度下实现8.8倍加速
边缘计算
移动端问答系统
在资源受限设备上部署高效语言模型
量化后模型体积仅84.86MB