bert-base-uncased-squadv1-x2.32开源问答模型，推理加速，免费畅用高效问答

首页

Bert Base Uncased Squadv1 X2.32 F86.6 D15 Hybrid V1

由 madlag 开发

基于BERT-base uncased模型在SQuAD v1上微调的问答模型，通过nn_pruning库修剪了66%的线性层权重，推理速度提升2.32倍

问答系统

Transformers

英语开源协议:MIT #问答加速 #结构化修剪 #低资源推理

下载量 16

发布时间 : 3/2/2022

模型简介

这是一个经过修剪优化的问答模型，专门用于从给定文本中提取答案。模型通过结构化修剪技术平衡了速度与准确率

模型特点

高效推理

通过结构化修剪技术实现2.32倍加速，同时保持86.6%的F1分数

注意力头优化

移除了43.8%的注意力头(144→81)，优化计算效率

知识蒸馏

从bert-large-uncased模型蒸馏而来，提升小模型性能

模型能力

文本理解

问答提取

上下文分析

使用案例

智能客服

自动问答系统

从知识库文档中自动回答用户问题

F1分数86.64

教育技术

学习辅助工具

帮助学生从教材中快速找到问题答案

🚀 BERT-base无大小写区分模型在SQuAD v1上微调

本模型解决了在问答任务中提升模型推理速度同时尽量保持准确率的问题。通过对BERT-base无大小写区分模型进行微调与剪枝，在SQuAD v1数据集上实现了推理速度的提升，为问答系统的实际应用提供了更高效的解决方案。

🚀 快速开始

要使用此模型，首先需要安装nn_pruning库，它包含优化脚本，可通过移除空行/列将线性层打包成更小的形式。

pip install nn_pruning

然后，你可以像往常一样使用transformers库，只需在管道加载时调用optimize_model即可。

from transformers import pipeline
from nn_pruning.inference_model_patcher import optimize_model

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-base-uncased-squadv1-x2.32-f86.6-d15-hybrid-v1",
    tokenizer="madlag/bert-base-uncased-squadv1-x2.32-f86.6-d15-hybrid-v1"
)

print("bert-base-uncased参数数量: 165.0M")
print(f"参数数量（仅包括注意力头剪枝，不包括前馈层剪枝）={int(qa_pipeline.model.num_parameters() / 1E6)}M")
qa_pipeline.model = optimize_model(qa_pipeline.model, "dense")

print(f"完全优化后的参数数量={int(qa_pipeline.model.num_parameters() / 1E6)}M")
predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})
print("预测结果", predictions)

✨ 主要特性

剪枝优化：线性层仅包含原权重的15.0%，整体模型包含原权重的34.0%，通过剪枝方法得到结构化矩阵，使模型在评估时运行速度比bert-base-uncased快2.32倍。
准确率表现：在准确率方面，其F1值为86.64，相比bert-base-uncased的88.5，F1值下降了1.86。
大小写不敏感：该模型不区分大小写，例如不区分english和English。

📚 详细文档

精细剪枝细节

本模型是基于HuggingFace的bert-base-uncased检查点在SQuAD1.1上进行微调，并从bert-large-uncased-whole-word-masking-finetuned-squad模型进行知识蒸馏得到的。块剪枝的一个副作用是部分注意力头被完全移除，在总共144个注意力头中移除了63个（43.8%）。

SQuAD1.1数据集详情

数据集	划分	样本数量
SQuAD1.1	训练集	90.6K
SQuAD1.1	评估集	11.1k

微调信息

Python版本：3.8.5
机器规格：

CPU: Intel(R) Core(TM) i7-6700K CPU
内存: 64 GiB
GPU: 1 GeForce GTX 3090，显存24GiB
GPU驱动: 455.23.05，CUDA: 11.1

结果

Pytorch模型文件大小：368MB（原始BERT：420MB）

指标	值	原始值（表2）	变化
精确匹配率（EM）	78.77	80.8	-2.03
F1值	86.64	88.5	-1.86

📄 许可证

本模型采用MIT许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文