xtremedistil-l6-h256-uncased开源模型 - 支持多任务多语言，免费解决多样需求

首页

Xtremedistil L6 H256 Uncased

由 microsoft 开发

XtremeDistilTransformers是一个经过蒸馏的任务无关型Transformer模型，利用任务迁移学习技术训练小型通用模型，适用于多种任务和语言。

大型语言模型

Transformers

英语开源协议:MIT #多任务蒸馏 #多语言支持 #高效推理

下载量 3,816

发布时间 : 3/2/2022

模型简介

该模型结合了多任务蒸馏技术，具有6层网络结构和384维隐藏层，参数量2200万，相比BERT-base实现了5.3倍加速。

模型特点

任务无关蒸馏

通过任务迁移学习技术训练，可应用于任意任务和语言。

高效压缩

相比BERT-base模型实现了5.3倍加速，参数量减少80%。

多任务蒸馏技术

结合XtremeDistil和MiniLM两篇论文中的先进蒸馏方法。

高性能

在GLUE和SQuAD-v2等基准测试中表现优异，接近原始大模型性能。

模型能力

文本分类

问答系统

自然语言理解

语义相似度计算

使用案例

自然语言处理

文本分类

可用于情感分析、主题分类等任务

在SST-2情感分析任务上达到92.3%准确率

问答系统

适用于开放域问答任务

在SQuAD-v2问答任务上达到76.6 F1分数

语义相似度

可用于判断两段文本的语义相似度

在QQP语义相似度任务上达到91.0%准确率

🚀 XtremeDistilTransformers：用于蒸馏大规模神经网络

XtremeDistilTransformers 是一个经过蒸馏的与任务无关的Transformer模型，它利用任务迁移来学习一个小型通用模型，该模型可以应用于任意任务和语言，相关内容在论文 XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation 中有所阐述。

我们结合了来自论文 XtremeDistil: Multi-stage Distillation for Massive Multilingual Models 和 MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers 的多任务蒸馏技术进行任务迁移，并提供了对应的 Github代码。

这个具有 6 层、384 隐藏层大小、12 个注意力头的 l6 - h384 检查点对应着 2200 万 个参数，与 BERT - base 相比速度提升了 5.3 倍。

其他可用的检查点：xtremedistil - l6 - h384 - uncased 和 xtremedistil - l12 - h384 - uncased

以下表格展示了在 GLUE 开发集和 SQuAD - v2 上的结果。

模型	参数数量	加速比	MNLI	QNLI	QQP	RTE	SST	MRPC	SQUAD2	平均
BERT	1.09亿	1倍	84.5	91.7	91.3	68.6	93.2	87.3	76.8	84.8
DistilBERT	6600万	2倍	82.2	89.2	88.5	59.9	91.3	87.5	70.7	81.3
TinyBERT	6600万	2倍	83.5	90.5	90.6	72.2	91.6	88.4	73.1	84.3
MiniLM	6600万	2倍	84.0	91.0	91.0	71.5	92.0	88.4	76.4	84.9
MiniLM	2200万	5.3倍	82.8	90.3	90.6	68.9	91.3	86.6	72.9	83.3
XtremeDistil - l6 - h256	1300万	8.7倍	83.9	89.5	90.6	80.1	91.2	90.0	74.1	85.6
XtremeDistil - l6 - h384	2200万	5.3倍	85.4	90.3	91.0	80.9	92.3	90.0	76.6	86.6
XtremeDistil - l12 - h384	3300万	2.7倍	87.2	91.9	91.3	85.6	93.1	90.4	80.2	88.5

测试环境为 tensorflow 2.3.1, transformers 4.1.1, torch 1.6.0

如果您在工作中使用了这个检查点，请引用：

@misc{mukherjee2021xtremedistiltransformers,
      title={XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation}, 
      author={Subhabrata Mukherjee and Ahmed Hassan Awadallah and Jianfeng Gao},
      year={2021},
      eprint={2106.04563},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}