这是一个基于BART-base架构微调的问题生成模型,专门用于从给定文本和答案生成相关问题。
下载量 57
发布时间 : 3/2/2022
模型介绍
内容详情
替代品
模型简介
该模型基于facebook/bart-base微调,用于在SQuAD数据集上进行问题生成任务,能够根据文本中的高亮答案生成相关问题。
模型特点
高质量问题生成
在SQuAD数据集上微调,能够生成与上下文和答案高度相关的问题
多指标评估
提供BLEU、METEOR、ROUGE-L等多种评估指标结果
领域外适应性
在多个领域外数据集上进行了评估,展示了良好的泛化能力
模型能力
文本生成
问题生成
自然语言处理
使用案例
教育
自动生成阅读理解问题
根据教材内容自动生成阅读理解问题
生成的问题与原文内容高度相关
内容创作
文章配套问题生成
为新闻文章生成配套的讨论问题
帮助读者更好地理解和思考文章内容
license: cc-by-4.0 metrics:
- bleu4
- meteor
- rouge-l
- bertscore
- moverscore language: en datasets:
- lmqg/qg_squad pipeline_tag: text2text-generation tags:
- 问题生成 widget:
- text: "
碧昂丝 进一步扩展了她的演艺事业,在2008年的音乐传记片《卡迪拉克唱片》中饰演蓝调歌手埃塔·詹姆斯。" example_title: "问题生成示例1" - text: "碧昂丝进一步扩展了她的演艺事业,在2008年的音乐传记片中饰演蓝调歌手
埃塔·詹姆斯 ,该片名为《卡迪拉克唱片》。" example_title: "问题生成示例2" - text: "碧昂丝进一步扩展了她的演艺事业,在2008年的音乐传记片中饰演蓝调歌手埃塔·詹姆斯,片名为
《卡迪拉克唱片》 。" example_title: "问题生成示例3" model-index: - name: lmqg/bart-base-squad-qg
results:
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_squad
type: default
args: default
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 24.68
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 52.66
- name: METEOR (问题生成) type: meteor_question_generation value: 26.05
- name: BERTScore (问题生成) type: bertscore_question_generation value: 90.87
- name: MoverScore (问题生成) type: moverscore_question_generation value: 64.47
- name: QAAlignedF1Score-BERTScore (问题与答案生成(含黄金答案))[黄金答案] type: qa_aligned_f1_score_bertscore_question_answer_generation_with_gold_answer_gold_answer value: 95.49
- name: QAAlignedRecall-BERTScore (问题与答案生成(含黄金答案))[黄金答案] type: qa_aligned_recall_bertscore_question_answer_generation_with_gold_answer_gold_answer value: 95.44
- name: QAAlignedPrecision-BERTScore (问题与答案生成(含黄金答案))[黄金答案] type: qa_aligned_precision_bertscore_question_answer_generation_with_gold_answer_gold_answer value: 95.55
- name: QAAlignedF1Score-MoverScore (问题与答案生成(含黄金答案))[黄金答案] type: qa_aligned_f1_score_moverscore_question_answer_generation_with_gold_answer_gold_answer value: 70.38
- name: QAAlignedRecall-MoverScore (问题与答案生成(含黄金答案))[黄金答案] type: qa_aligned_recall_moverscore_question_answer_generation_with_gold_answer_gold_answer value: 70.1
- name: QAAlignedPrecision-MoverScore (问题与答案生成(含黄金答案))[黄金答案] type: qa_aligned_precision_moverscore_question_answer_generation_with_gold_answer_gold_answer value: 70.67
- name: QAAlignedF1Score-BERTScore (问题与答案生成)[黄金答案] type: qa_aligned_f1_score_bertscore_question_answer_generation_gold_answer value: 92.84
- name: QAAlignedRecall-BERTScore (问题与答案生成)[黄金答案] type: qa_aligned_recall_bertscore_question_answer_generation_gold_answer value: 92.95
- name: QAAlignedPrecision-BERTScore (问题与答案生成)[黄金答案] type: qa_aligned_precision_bertscore_question_answer_generation_gold_answer value: 92.75
- name: QAAlignedF1Score-MoverScore (问题与答案生成)[黄金答案] type: qa_aligned_f1_score_moverscore_question_answer_generation_gold_answer value: 64.24
- name: QAAlignedRecall-MoverScore (问题与答案生成)[黄金答案] type: qa_aligned_recall_moverscore_question_answer_generation_gold_answer value: 64.11
- name: QAAlignedPrecision-MoverScore (问题与答案生成)[黄金答案] type: qa_aligned_precision_moverscore_question_answer_generation_gold_answer value: 64.46
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_squadshifts
type: amazon
args: amazon
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 0.05824165264328302
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 0.23816054441894524
- name: METEOR (问题生成) type: meteor_question_generation value: 0.2126541577267873
- name: BERTScore (问题生成) type: bertscore_question_generation value: 0.9049284884636415
- name: MoverScore (问题生成) type: moverscore_question_generation value: 0.6026811246610306
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_squadshifts
type: new_wiki
args: new_wiki
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 0.10732253983426589
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 0.2843539251435107
- name: METEOR (问题生成) type: meteor_question_generation value: 0.26233713078026283
- name: BERTScore (问题生成) type: bertscore_question_generation value: 0.9307303692241476
- name: MoverScore (问题生成) type: moverscore_question_generation value: 0.656720781293701
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_squadshifts
type: nyt
args: nyt
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 0.07645313983751752
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 0.2390325229516282
- name: METEOR (问题生成) type: meteor_question_generation value: 0.244330483594333
- name: BERTScore (问题生成) type: bertscore_question_generation value: 0.9235989114144583
- name: MoverScore (问题生成) type: moverscore_question_generation value: 0.6368628469746445
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_squadshifts
type: reddit
args: reddit
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 0.053789810023704955
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 0.2141155595451475
- name: METEOR (问题生成) type: meteor_question_generation value: 0.20395821936787215
- name: BERTScore (问题生成) type: bertscore_question_generation value: 0.905714302466044
- name: MoverScore (问题生成) type: moverscore_question_generation value: 0.6013927660089013
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_subjqa
type: books
args: books
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 1.4952813458186383e-10
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 0.10769136267285535
- name: METEOR (问题生成) type: meteor_question_generation value: 0.11520101781020654
- name: BERTScore (问题生成) type: bertscore_question_generation value: 0.8774975922095214
- name: MoverScore (问题生成) type: moverscore_question_generation value: 0.5520873074919223
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_subjqa
type: electronics
args: electronics
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 1.3766381900873328e-06
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 0.14287460464803423
- name: METEOR (问题生成) type: meteor_question_generation value: 0.14866637711177003
- name: BERTScore (问题生成) type: bertscore_question_generation value: 0.8759880110997111
- name: MoverScore (问题生成) type: moverscore_question_generation value: 0.5607199201429516
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_subjqa
type: grocery
args: grocery
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 0.006003840641121225
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 0.1248840598199836
- name: METEOR (问题生成) type: meteor_question_generation value: 0.1553374628831024
- name: BERTScore (问题生成) type: bertscore_question_generation value: 0.8737966828346252
- name: MoverScore (问题生成) type: moverscore_question_generation value: 0.5662545638649026
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_subjqa
type: movies
args: movies
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 0.0108258720771249
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 0.1389815289507374
- name: METEOR (问题生成) type: meteor_question_generation value: 0.12855849168399078
- name: BERTScore (问题生成) type: bertscore_question_generation value: 0.8773110466344016
- name: MoverScore (问题生成) type: moverscore_question_generation value: 0.5555164603510797
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_subjqa
type: restaurants
args: restaurants
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 1.7873892359263582e-10
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 0.12160976589996819
- name: METEOR (问题生成) type: meteor_question_generation value: 0.1146979295288459
- name: BERTScore (问题生成) type: bertscore_question_generation value: 0.8771339668070569
- name: MoverScore (问题生成) type: moverscore_question_generation value: 0.5490739019998478
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_subjqa
type: tripadvisor
args: tripadvisor
metrics:
- name: BLEU4 (问题生成) type: bleu4_question_generation value: 0.010174680918435602
- name: ROUGE-L (问题生成) type: rouge_l_question_generation value: 0.1341425139885307
- name: METEOR (问题生成) type: meteor_question_generation value: 0.1391725168440533
- name: BERTScore (问题生成) type: bertscore_question_generation value: 0.8877592491739579
- name: MoverScore (问题生成) type: moverscore_question_generation value: 0.5590591813016728
- task:
name: 文本到文本生成
type: text2text-generation
dataset:
name: lmqg/qg_squad
type: default
args: default
metrics:
lmqg/bart-base-squad-qg
模型卡片
该模型是基于facebook/bart-base微调的版本,用于在lmqg/qg_squad(数据集名称:default)上进行问题生成任务,通过lmqg
实现。
概述
- 语言模型: facebook/bart-base
- 语言: en
- 训练数据: lmqg/qg_squad (default)
- 在线演示: https://autoqg.net/
- 代码库: https://github.com/asahi417/lm-question-generation
- 论文: https://arxiv.org/abs/2210.03992
使用方式
- 使用
lmqg
from lmqg import TransformersQG
# 初始化模型
model = TransformersQG(language="en", model="lmqg/bart-base-squad-qg")
# 模型预测
questions = model.generate_q(list_context="威廉·特纳是一位专门从事水彩风景画的英国画家", list_answer="威廉·特纳")
- 使用
transformers
from transformers import pipeline
pipe = pipeline("text2text-generation", "lmqg/bart-base-squad-qg")
output = pipe("<hl> 碧昂丝 <hl> 进一步扩展了她的演艺事业,在2008年的音乐传记片《卡迪拉克唱片》中饰演蓝调歌手埃塔·詹姆斯。")
评估
- 指标(问题生成): 原始指标文件
分数 | 类型 | 数据集 | |
---|---|---|---|
BERTScore | 90.87 | default | lmqg/qg_squad |
Bleu_1 | 56.92 | default | lmqg/qg_squad |
Bleu_2 | 40.98 | default | lmqg/qg_squad |
Bleu_3 | 31.44 | default | lmqg/qg_squad |
Bleu_4 | 24.68 | default | lmqg/qg_squad |
METEOR | 26.05 | default | lmqg/qg_squad |
MoverScore | 64.47 | default | lmqg/qg_squad |
ROUGE_L | 52.66 | default | lmqg/qg_squad |
- 指标(问题与答案生成,参考答案): 每个问题基于黄金答案生成。原始指标文件
分数 | 类型 | 数据集 | |
---|---|---|---|
QAAlignedF1Score (BERTScore) | 95.49 | default | lmqg/qg_squad |
QAAlignedF1Score (MoverScore) | 70.38 | default | lmqg/qg_squad |
QAAlignedPrecision (BERTScore) | 95.55 | default | lmqg/qg_squad |
QAAlignedPrecision (MoverScore) | 70.67 | default | lmqg/qg_squad |
QAAlignedRecall (BERTScore) | 95.44 | default | lmqg/qg_squad |
QAAlignedRecall (MoverScore) | 70.1 | default | lmqg/qg_squad |
- 指标(问题与答案生成,流水线方法): 每个问题基于
lmqg/bart-base-squad-ae
生成的答案生成。原始指标文件
分数 | 类型 | 数据集 | |
---|---|---|---|
QAAlignedF1Score (BERTScore) | 92.84 | default | lmqg/qg_squad |
QAAlignedF1Score (MoverScore) | 64.24 | default | lmqg/qg_squad |
QAAlignedPrecision (BERTScore) | 92.75 | default | lmqg/qg_squad |
QAAlignedPrecision (MoverScore) | 64.46 | default | lmqg/qg_squad |
QAAlignedRecall (BERTScore) | 92.95 | default | lmqg/qg_squad |
QAAlignedRecall (MoverScore) | 64.11 | default | lmqg/qg_squad |
- 指标(问题生成,域外数据)
数据集 | 类型 | BERTScore | Bleu_4 | METEOR | MoverScore | ROUGE_L | 链接 |
---|---|---|---|---|---|---|---|
lmqg/qg_squadshifts | amazon | 90.49 | 5.82 | 21.27 | 60.27 | 23.82 | 链接 |
lmqg/qg_squadshifts | new_wiki | 93.07 | 10.73 | 26.23 | 65.67 | 28.44 | 链接 |
lmqg/qg_squadshifts | nyt | 92.36 | 7.65 | 24.43 | 63.69 | 23.9 | 链接 |
lmqg/qg_squadshifts | 90.57 | 5.38 | 20.4 | 60.14 | 21.41 | 链接 | |
lmqg/qg_subjqa | books | 87.75 | 0.0 | 11.52 | 55.21 | 10.77 | 链接 |
lmqg/qg_subjqa | electronics | 87.6 | 0.0 | 14.87 | 56.07 | 14.29 | 链接 |
lmqg/qg_subjqa | grocery | 87.38 | 0.6 | 15.53 | 56.63 | 12.49 | 链接 |
lmqg/qg_subjqa | movies | 87.73 | 1.08 | 12.86 | 55.55 | 13.9 | 链接 |
lmqg/qg_subjqa | restaurants | 87.71 | 0.0 | 11.47 | 54.91 | 12.16 | 链接 |
lmqg/qg_subjqa | tripadvisor | 88.78 | 1.02 | 13.92 | 55.91 | 13.41 | 链接 |
训练超参数
训练过程中使用的超参数如下:
- dataset_path: lmqg/qg_squad
- dataset_name: default
- input_types: ['paragraph_answer']
- output_types: ['question']
- prefix_types: None
- model: facebook/bart-base
- max_length: 512
- max_length_output: 32
- epoch: 7
- batch: 32
- lr: 0.0001
- fp16: False
- random_seed: 1
- gradient_accumulation_steps: 8
- label_smoothing: 0.15
完整配置可在微调配置文件中找到。
引用
@inproceedings{ushio-etal-2022-generative,
title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration",
author = "Ushio, Asahi and
Alva-Manchego, Fernando and
Camacho-Collados, Jose",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, U.A.E.",
publisher = "Association for Computational Linguistics",
}
Distilbert Base Cased Distilled Squad
Apache-2.0
DistilBERT是BERT的轻量级蒸馏版本,参数量减少40%,速度提升60%,保留95%以上性能。
问答系统
英语
D
distilbert
220.76k
244
Distilbert Base Uncased Distilled Squad
Apache-2.0
DistilBERT是BERT的轻量级蒸馏版本,参数量减少40%,速度提升60%,在GLUE基准测试中保持BERT 95%以上的性能。
问答系统
Transformers

英语
D
distilbert
154.39k
115
Tapas Large Finetuned Wtq
Apache-2.0
TAPAS是基于BERT架构的表格问答模型,通过自监督方式在维基百科表格数据上预训练,支持对表格内容进行自然语言问答
问答系统
Transformers

英语
T
google
124.85k
141
Bert Base Cased Qa Evaluator
基于BERT-base-cased的问答对评估模型,用于判断问题和答案是否语义相关
问答系统
B
iarfmoose
122.54k
9
Tiny Doc Qa Vision Encoder Decoder
MIT
一个基于MIT许可证的文档问答模型,主要用于测试目的。
问答系统
Transformers

T
fxmarty
41.08k
16
Dpr Question Encoder Single Nq Base
DPR(密集段落检索)是用于开放领域问答研究的工具和模型。
问答系统
Transformers

英语
D
facebook
32.90k
30
Mobilebert Uncased Squad V2
MIT
MobileBERT是BERT_LARGE的轻量化版本,在SQuAD2.0数据集上微调而成的问答系统模型。
问答系统
Transformers

英语
M
csarron
29.11k
7
Tapas Base Finetuned Wtq
Apache-2.0
TAPAS是一个基于Transformer的表格问答模型,通过自监督学习在维基百科表格数据上预训练,并在WTQ等数据集上微调。
问答系统
Transformers

英语
T
google
23.03k
217
Dpr Question Encoder Multiset Base
基于BERT的密集段落检索(DPR)问题编码器,用于开放领域问答研究,在多个QA数据集上训练
问答系统
Transformers

英语
D
facebook
17.51k
4
Roberta Base On Cuad
MIT
基于RoBERTa-base模型在法律合同问答任务上微调的模型,专为法律合同审查设计
问答系统
Transformers

英语
R
Rakib
14.79k
8
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文