electra-base-squad2开源问答模型 - 适用于英语问答任务，助力信息获取

首页

Electra Base Squad2

由 bhadresh-savani 开发

这是一个基于ELECTRA-base架构的英语抽取式问答模型，在SQuAD 2.0数据集上训练，适用于问答任务。

问答系统 #抽取式问答 #高精度阅读理解 #ELECTRA架构

下载量 102

发布时间 : 4/13/2022

模型简介

该模型使用ELECTRA-base架构，专门用于英语抽取式问答任务，能够从给定文本中提取问题的答案或判断问题是否无解。

模型特点

高性能问答

在SQuAD 2.0开发集上达到81.35的F1分数，表现优异。

支持无答案判断

能够处理无法回答的问题，在无答案问题上表现良好。

多框架支持

支持Transformers、FARM和Haystack等多种框架使用。

模型能力

文本理解

问题回答

无答案判断

使用案例

智能客服

自动回答客户问题

从知识库文档中自动提取客户问题的答案

提高客服效率，减少人工干预

教育辅助

学习资料问答

帮助学生从教材文本中快速找到问题答案

提升学习效率

🚀 用于问答的Electra-base模型

该模型基于Electra-base语言模型，专注于抽取式问答任务，使用SQuAD 2.0数据集进行训练和评估，能为问答场景提供高效准确的解决方案。

🚀 快速开始

你可以参考以下代码示例快速使用该模型，具体使用方法可根据不同的框架进行选择。

✨ 主要特性

语言模型：electra-base
语言：英语
下游任务：抽取式问答
训练数据：SQuAD 2.0
评估数据：SQuAD 2.0
代码示例：可查看 FARM 中的示例
基础设施：1x Tesla v100

📦 安装指南

文档未提及具体安装步骤，可参考代码示例中的依赖库安装说明。

💻 使用示例

基础用法

在Transformers框架中

from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline

model_name = "deepset/electra-base-squad2"

# a) 获取预测结果
nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)
QA_input = {
    'question': 'Why is model conversion important?',
    'context': 'The option to convert models between FARM and transformers gives freedom to the user and let people easily switch between frameworks.'
}
res = nlp(QA_input)

# b) 加载模型和分词器
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

在FARM框架中

from farm.modeling.adaptive_model import AdaptiveModel
from farm.modeling.tokenization import Tokenizer
from farm.infer import Inferencer

model_name = "deepset/electra-base-squad2"

# a) 获取预测结果
nlp = Inferencer.load(model_name, task_type="question_answering")
QA_input = [{"questions": ["Why is model conversion important?"],
             "text": "The option to convert models between FARM and transformers gives freedom to the user and let people easily switch between frameworks."}]
res = nlp.inference_from_dicts(dicts=QA_input)

# b) 加载模型和分词器
model = AdaptiveModel.convert_from_transformers(model_name, device="cpu", task_type="question_answering")
tokenizer = Tokenizer.load(model_name)

在haystack框架中

若要进行大规模问答（即处理多篇文档而非单个段落），可以在 haystack 中加载该模型：

reader = FARMReader(model_name_or_path="deepset/electra-base-squad2")
# 或者
reader = TransformersReader(model="deepset/electra-base-squad2",tokenizer="deepset/electra-base-squad2")

高级用法

文档未提及高级用法相关代码示例。

📚 详细文档

超参数设置

seed=42
batch_size = 32
n_epochs = 5
base_LM_model = "google/electra-base-discriminator"
max_seq_len = 384
learning_rate = 1e-4
lr_schedule = LinearWarmup
warmup_proportion = 0.1
doc_stride=128
max_query_length=64

性能评估

使用官方评估脚本在SQuAD 2.0开发集上进行评估，结果如下：

"exact": 77.30144024256717,
 "f1": 81.35438272008543,
 "total": 11873,
 "HasAns_exact": 74.34210526315789,
 "HasAns_f1": 82.45961302894314,
 "HasAns_total": 5928,
 "NoAns_exact": 80.25231286795626,
 "NoAns_f1": 80.25231286795626,
 "NoAns_total": 5945