bert-large-uncased-wwm-squadv2-x2.15-f83.2-d25-hybrid-v1开源模型

首页

Bert Large Uncased Wwm Squadv2 X2.15 F83.2 D25 Hybrid V1

由 madlag 开发

该模型通过nn_pruning库修剪，保留了32%原始权重，运行速度是原版的2.15倍，F1值83.22

问答系统

Transformers

英语开源协议:MIT #问答系统 #权重修剪 #高效推理

下载量 21

发布时间 : 3/2/2022

模型简介

基于BERT-large架构的问答系统模型，针对SQuAD 2.0数据集微调，采用全词掩码技术，适用于英文问答任务

模型特点

高效修剪技术

通过nn_pruning库实现结构化修剪，线性层保留25%权重，整体保留32%权重

加速推理

运行速度达到原始BERT-large的2.15倍

注意力头优化

384个注意力头中修剪了155个（40.4%），提升计算效率

模型能力

英文问答

阅读理解

文本理解

使用案例

教育

学习辅助系统

帮助学生快速从教材中获取问题答案

F1值83.22的准确率

智能客服

FAQ自动回答

从知识库中自动检索问题答案

🚀 bert-large-uncased-whole-word-masking模型在SQuAD v2上的微调版本

本模型解决了问答任务中模型效率与精度平衡的问题，通过对模型进行剪枝，在一定程度上降低精度损失的同时显著提升了运行速度，为问答系统的实际应用提供了更高效的解决方案。

🚀 快速开始

本模型是基于 nn_pruning Python库创建的：线性层保留了原始权重的25.0%。

模型整体保留了原始权重的32.0%（嵌入层在模型中占比很大，且此方法未对其进行剪枝）。

在评估中，通过简单调整线性矩阵大小，该模型的运行速度是 bert-large-uncased-whole-word-masking 的 2.15倍。这是因为剪枝方法生成了结构化矩阵，将鼠标悬停在下方的图表上，即可查看每个矩阵的非零/零部分。

在准确率方面，其 F1值为83.22，而 bert-large-uncased-whole-word-masking 的F1值为85.85，F1值下降了2.63。

🔧 技术细节

精细剪枝细节

本模型是基于HuggingFace的模型检查点在 SQuAD2.0 上进行微调，并从 madlag/bert-large-uncased-whole-word-masking-finetuned-squadv2 模型中进行知识蒸馏得到的。

该模型不区分大小写：即对英文中的大小写不做区分。

块剪枝的一个副作用是部分注意力头被完全移除：在总共384个注意力头中，有155个被移除（占比40.4%）。以下是剪枝后剩余注意力头在网络中的详细分布情况。

SQuAD1.1数据集详情

数据集	划分	样本数量
SQuAD 2.0	训练集	130.0K
SQuAD 2.0	评估集	11.9k

微调信息

Python版本：3.8.5
机器规格：

CPU: Intel(R) Core(TM) i7-6700K CPU
内存: 64 GiB
GPU: 1块GeForce GTX 3090，显存24GiB
GPU驱动: 455.23.05，CUDA: 11.1

结果

Pytorch模型文件大小：1119MB（原始BERT模型：1228.0MB）

指标	值	原始值 (表2)	变化
EM	80.19	82.83	-3.64
F1	83.22	85.85	-2.63

{
    "HasAns_exact": 76.48448043184885,
    "HasAns_f1": 82.55514100819374,
    "HasAns_total": 5928,
    "NoAns_exact": 83.8856181665265,
    "NoAns_f1": 83.8856181665265,
    "NoAns_total": 5945,
    "best_exact": 80.19034784805862,
    "best_exact_thresh": 0.0,
    "best_f1": 83.22133208932635,
    "best_f1_thresh": 0.0,
    "exact": 80.19034784805862,
    "f1": 83.22133208932645,
    "total": 11873
}

💻 使用示例

基础用法

# Install nn_pruning: it contains the optimization script, which just pack the linear layers into smaller ones by removing empty rows/columns.
pip install nn_pruning

from transformers import pipeline
from nn_pruning.inference_model_patcher import optimize_model

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-large-uncased-wwm-squadv2-x2.15-f83.2-d25-hybrid-v1",
    tokenizer="madlag/bert-large-uncased-wwm-squadv2-x2.15-f83.2-d25-hybrid-v1"
)

print("bert-large-uncased-whole-word-masking parameters: 497.0M")
print(f"Parameters count (includes only head pruning, not feed forward pruning)={int(qa_pipeline.model.num_parameters() / 1E6)}M")
qa_pipeline.model = optimize_model(qa_pipeline.model, "dense")

print(f"Parameters count after complete optimization={int(qa_pipeline.model.num_parameters() / 1E6)}M")
predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})
print("Predictions", predictions)